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rr“^ 艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西 
given 
的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风骚 。 在 
商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 
科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 
科学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 
规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 


近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我国 的 计算 机 产业 发 展 迅猛 ， 
对 专业 人 才 的 需求 日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 
也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 我 国信 息 
技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 
十 年 间 积 淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 
国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作 
用 ,也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 


机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 
年 开始 ， 我 们 就 将 工作 重点 放 在 了 入选 、 移 译 国 外 优秀 教材 上。 经 过 多 
年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill，Elsevier，MIT，John 
Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 
他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bijarne Strous- 
trup, Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E 
. Hoperoft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, 
Donald E. Knuth，John L. Hennessy，Larry L. Peterson 等 大 师 名 家 的 一 
批 经 典 作 品 ， 以 “计算 机 科学 从 书 ” 为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 
珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 


“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 
专家 不 仅 提 供 了 中 肯 的 选 题 指 导 ， 还 不 辞 劳 苗 地 担任 了 翻译 和 审 校 的 工作 ; 
而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 
作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 
版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 


阐 臣 避 乏 压 
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权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
俩 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 草 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : 
电子 邮件 : 
联系 电话 : 
联系 地 址 : 
邮政 编码 : 


www. hzbook. com 
hzisi@® hzbook. com 
(010)88379604 HZ BOOK 





华章 教育 
北京 市 西城 区 百 万 庄 南 街 1 号 华章 科技 图 书 出 版 中 心 
100037 


1 | 章 公 司 温 曹芳 女士 洲 我 为 即将 出 版 的 《Computer Systems: A 
一 二 Programmer's Perspective》 第 3 版 的 中 文 译 本 《深入 理解 计算 机 系 
统 》 写 个 序 ， 出 于 两 方面 的 考虑 ， 欣 然 允 之 。 


一 是 源 于 我 个 人 的 背景 和 兴趣 。 我 长 期 从 事 软 件 工程 和 系统 软件 领 
域 的 研究 ， 对 计算 机 学 科 的 认识 可 概括 为 两 大 方面 : 计算 系统 的 构建 和 
基于 计算 系统 的 计算 技术 应 用 。 出 于 信息 时 代 国 家 掌握 关键 核心 技术 的 
重大 需求 以 及 我 个 人 专业 的 本 位 视角 ,我 一 直 对 系统 级 技术 的 研发 给 予 
更 多 关注 ， 由 于 这 种 “偏爱 ”和 研究 习惯 的 养 成 ， 以 至 于 自己 在 面 对 非 本 
专业 领域 问题 时 ， 也 常常 喜欢 从 “系统 观 ” 来 看 待 问 题 和 解决 问题 。 我 自 
己 也 和 《深入 理解 计算 机 系统 有 过 “亲密 接触 ”。2012 年 ， 我 还 在 北京 大 
学 信息 科学 技术 学 院 院 长 任 上 ， 学院 从 更 好 地 培养 适应 新 技术 、 发 展 具 
有 系统 设计 和 系统 应 用 能 力 的 计算 机 专门 人 才 出 发 ， 在 调查 若干 国外 高 
校 计算 机 学 科 本 科 生 教学 体系 基础 上 ,决定 加 强 计 算 机 系统 能 力 培 养 ， 
在 本 科 生 二 年 级 增设 了 一 门 系统 级 课程 ， 即 “计算 机 系统 导论 ”。 其 时 ， 
学 校正 在 倡导 小 班 课 教学 模式 ， 这 门 课 也 被 选 为 学 院 的 第 一 个 小 班 课 教 
学 试点 。 为 了 体现 学 院 的 重视 ,我 亲自 担任 了 这 门 课 的 主持 人 人， 市 领 一 
个 18 人 组 成 的 “豪华 "教学 团队 负责 该 课程 的 教学 工作 ,将 学 生 分 成 14 
个 小 班 ， 每 个 小 班 不 超过 15 人 。 同 时 ， 该 课程 涉及 教师 集体 备课 组 合 授 
课 、 大 班 授课 基础 上 的 小 班 课 教 学 和 讨论 、 定 期 教学 会 议 、 学 生 自 主 习 
题 课 和 实验 课 等 新 教学 模式 的 探索 ， 其 中 一 项 非常 重要 的 举措 就 是 选用 
了 卡 内 基 - 梅 隆 大 学 Randal E. Bryant 教授 和 David R. O'Hallaron 教授 编写 
的 《Computer Systems: A Programmer's Perspective》( 第 2 版 ) 作 为 教材 。 虽 
然 这 门 课程 我 只 主持 了 一 次 ,但 对 这 本 教材 的 印象 颇 深 颇 佳 。 


二 是 源 于 我 和 华章 公司 已 有 的 良好 合作 和 相互 了 解 。2000 年 前 后 ， 
我 先后 翻译 了 华章 公司 引进 (机 械 工 业 出 版 社 出 版 ) 的 Roger Pressman 编 
写 的 《Software Engineering: A Practitioner's Approach) 一 书 的 第 4 版 和 第 
5 版 。 其 后 ， 在 计算 机 学 会 软件 工程 专业 委员 会 和 系统 软件 专业 委员 会 的 
诸多 学 术 活 动 中 也 和 华章 公司 及 温 莉 芳 女士 本 人 有 不 少 合 作 。 近 二 十 年 
来 ， 华 章 公 司 的 编辑 们 引进 出 版 了 大 量 计算 机 学 科 的 优秀 教材 和 学 术 闭 
作 ， 对 国内 高 校 计 算 机 学 科 的 教学 改革 起 到 了 积极 的 促进 作用 ， 本 书 的 
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翻译 出 版 仍 是 这 项 工作 的 延续 。 这 是 一 项 值得 褒扬 的 工作 ， 我 也 想 借 此 机 会 代表 计算 机 界 同仁 
表达 对 华 草 公 司 的 感谢 ! 


计算 机 系统 类 别 的 课程 一 直 是 计算 机 科学 与 技术 专业 的 主要 教学 内 容 之 一 。 由 于 历史 原 
因 ， 我 国 的 计算 机 专业 的 课程 体系 曾 广泛 参考 ACM 和 IEEE 制订 的 计算 机 科学 与 技术 专业 教 
学 计划 (Computing Curricula) 设 计 ， 计 算 机 系统 类 课程 也 参照 该 计划 分 为 汇编 语言 、 操 作 系统 、 
组 成 原理 、 体 系 结构 、 计 算 机 网 络 等 多 门 课程 。 应 该 说 ， 该 课程 体系 在 历史 上 对 我 国 的 计算 机 
专业 教育 起 了 很 好 的 引导 作用 。 


进入 新 世纪 以 来 ,计算 技术 发 生 了 重要 的 发 展 和 变化 ,我 国 的 信息 技术 和 产业 也 得 到 了 迅 
猛 发 展 ， 对 计算 机 专业 的 毕业 生 提 出 了 更 高 要 求 。 重 新 审视 原来 我 们 参照 ACM/IEEE 计算 机 
专业 计划 的 课程 体系 ， 会 发 现存 在 以 下 几 个 方面 的 主要 问题 。 


1) 课程 体系 中 缺乏 一 门 独立 的 能 够 贯穿 整个 计算 机 系统 的 基础 课程 。 计 算 机 系统 方面 的 
基础 知识 被 分 成 了 很 多 门 独立 的 诛 程 ， 诛 程 内 容 彼此 之 间 缺 乏 关 联 和 系统 性 。 学 生 学 习 之 后 ， 
虽然 在 计算 机 系统 的 各 个 部 分 理解 了 很 多 概念 和 方法 ， 但 往往 会 忽视 各 个 部 分 之 间 的 关联 ， 难 
以 系统 性 地 理解 整个 计算 机 系统 的 工作 原理 和 方法 。 

2) 现 有 课程 往往 偏重 理论 ， 和 实践 关联 较 少 。 如 现 有 的 系统 课程 中 通常 会 介绍 函数 调用 
过 程 中 的 压 栈 和 退 栈 方式 ， 但 较 少 和 实践 关联 来 理解 压 栈 和 退 栈 过 程 的 主要 作用 。 实 际 上 ， 压 
栈 和 退 栈 与 理解 C 等 高 级 语言 的 工作 原理 息息相关 ， 也 是 常用 的 攻击 手段 Buffer Overflow 的 
主要 技术 基础 。 

3) 教学 内 容 比较 传统 和 陈旧 ， 基 本 上 是 早期 PC 时 代 的 内 容 。 比 如 ， 现 在 的 主流 台式 机 
CPU 都 已 经 是 x86-64 指令 集 ， 但 较 多 课程 还 在 教授 80386 甚至 更 早 的 指令 集 。 对 于 近年 来 出 
现 的 多 核 / 众 核 处 理 融 、SSD 人 硬盘 等 实际 应 用 中 过 到 的 内 容 更 是 涉及 较 少 。 

4) 课程 大 多 数 从 设计 者 的 角度 出 发 ， 而 不 是 从 使 用 者 的 角度 出 发 。 对 于 大 多 数学 生来 说 ， 
毕业 之 后 并 不 会 成 为 专业 的 CPU 设计 人 员 、 操 作 系 统 开发 人 员 等 ， 而 是 会 成 为 软件 开发 工程 
师 。 对 他 们 而 言 ， 最 重要 的 是 理解 主流 计算 机 系统 的 整体 设计 以 及 这 些 设计 因素 对 于 应 用 软件 
开发 和 运行 的 影响 。 


这 本 教材 很 好 地 克服 了 上 述 传统 课程 的 不 足 ， 这 也 是 当初 北大 计算 机 学 科 本 科 生 教学 改革 
时 选择 该 教材 的 主要 考量 。 其 一 ， 该 教材 系统 地 介绍 了 整个 计算 机 系统 的 工作 原理 ， 可 帮助 学 
生 系 统 性 地 理解 计算 机 如 何 执行 程序 、 存 储 信 息 和 通信 ; 其 二 ， 该 教材 非常 强调 实践 ， 全 书包 
括 9 个 配套 的 实验 ， 在 这 些 实验 中 ， 学 生 需 要 攻破 计算 机 系统 、 设 计 CPU、 实 现 命令 行 解释 
器 、 根 据 缓 存 优 化 程序 等 ， 在 新 鲜 有 趣 的 实验 中 理解 系统 原理 ， 培 养 动手 能 力 ; 其 三 ， 该 教材 
紧 跟 时 代 的 发 展 ， 加 入 了 x86-64 指令 集 、Intel Core i7 的 虚拟 地 址 结构 、SSD 磁盘 、IPv6 等 新 
技术 内 容 ; 其 四 ， 该 教材 从 程序 员 的 角度 看 待 计算 机 系统 ， 重 点 讨论 系统 的 不 同 结 构 对 于 上 层 
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应 用 软件 编写 、 执 行 和 数据 存储 的 影响 ， 以 培养 程序 员 在 更 广阔 空间 应 用 计算 机 系统 知识 的 
能 力 。 


基于 该 教材 的 北大 “计算 机 系统 导论 ”课程 实施 已 有 五 年 ， 得 到 了 学 生 的 广泛 赞誉 ， 学 生 们 
通过 这 门 课程 的 学 习 建 立 了 完整 的 计算 机 系统 的 知识 体系 和 整体 知识 框架 ， 养 成 了 良好 的 编程 
习惯 并 获得 了 编写 高 性 能 、 可 移植 和 健壮 的 程序 的 能 力 ， 葛 定 了 后 续 学 习 操 作 系 统 、 编 译 、 计 
算 机 体系 结构 等 专业 课程 的 基础 。 北 大 的 教学 实践 表明 ， 这 是 一 本 值得 推荐 采用 的 好 教材 。 


该 书 的 第 3 版 相对 于 第 2 版 进行 了 较 大 程度 的 修改 和 扩充 。 第 3 版 从 一 开始 就 采用 最 新 
x86-64 架构 来 贯穿 各 部 分 知识 ， 在 内 存 技术 、 网 络 技 术 上 也 有 一 系列 更 新 ， 并 且 重 组 了 之 前 的 
一 些 比 较 难 懂 的 内 容 。 我 相信 ， 该 书 的 出 版 ， 将 有 助 于 国内 计算 机 系统 教学 的 进一步 改进 ， 为 


培养 从 事 系 统 级 创新 的 计算 机 人 才 葛 定 很 好 的 基础 。 
[1[ [3 
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wise 一 个 月 之 后 ， 我 在 复旦 大 学 软件 学 
院 开 设 了 “计算 机 系统 基础 ”课程 ， 成 为 国内 第 一 个 采用 这 本 教材 授 
课 的 老师 。 这 本 教材 有 四 个 特点 。 第 一 ， 涉及 面 广 ， 覆盖 了 二 进 制 、 
编 、 组 成 、 体 系 结构 、 操 作 系 统 、 网 络 与 并 发 程序 设计 等 计算 机 系统 最 
重要 的 方面 。 第 二 ， 具 有 相当 的 深度 ， 本 书 从 程序 出 发 逐步 深入 到 系统 
领域 的 重要 问题 ， 而 非 点 到 为 止 ， 学 完 本 书后 读者 可 以 很 好 地 理解 计算 
机 系统 的 工作 原理 。 第 三 ， 它 是 面向 低 年 级 学 生 的 教材 ， 在 过 去 的 教学 
体系 中 这 本 书 所 涉及 的 很 多 内 容 只 能 在 高 年 级 讲授 ， 而 本 书 通过 合理 的 
安排 将 计算 机 系统 领域 最 核心 的 内 容 巧 妙 地 展现 给 学 生 ( 例 如 ， 不 需要 掌 
握 逻 辑 设计 与 硬件 描述 语言 的 完整 知识 ， 就 可 以 体验 处 理 器 设计 )。 第 
四 ， 本 书 配 备 了 非常 实用 、 有 趣 的 实验 。 例 如 ， 模 仿 硬 件 仅 用 位 操作 完 
成 复杂 的 运算 ， 模仿 tracker 和 hacker 去 破解 密码 以 及 攻击 目 身 的 程序 
设计 处 理 器 ， 实 现 简单 但 功能 强大 的 Shell 和 Proxy 等 。 这 些 实验 既 强 化 
了 学 生 对 书本 知识 的 理解 ， 也 进一步 激发 了 学 生 探 究 计算 机 系统 的 热情 。 


以 低 年 级 开设 “深入 理解 计算 机 系统 ”课程 为 基础 ， 我 先后 在 复旦 大 
学 和 上 海 交 通 大 学 软件 学 院 主导 了 激进 的 教学 改革 。 必 修 课 时 被 大 量 压 
缩 ， 现 在 软件 工程 专业 必修 课 由 问题 求解 、 计 算 机 系统 基础 、 应 用 开发 
基础 、 软 件 工程 四 个 模块 9 门 课 构成 。 其 他 传统 的 必修 课 如 操作 系统 、 
编译 原理 、 数 字 人 逻辑 等 都 成 为 方向 课 。 课 程 体系 的 变化 ， 减少 了 学 生 修 
渎 课程 的 总 数 和 总 课时 ， 因 而 为 大 幅度 增加 实验 总 量 、 提 高 实验 难度 和 
强度 、 增 强 实验 的 综合 性 和 创新 性 提供 了 有 力 保障 。 现 在 我 的 课题 组 的 
青年 教师 全 部 是 首 批 经 历 此 项 教学 改革 的 学 生 。 本 科 的 扎实 基础 为 他 们 
从 事 系 统 软 件 研 究 打 下 了 良好 基础 ， 他 们 实现 了 亚洲 学 术 界 在 操作 系统 
旗舰 会 议 SOSP 上 论文 发 表 零 的 突破 ， 目 前 研究 成 果 在 国际 上 具有 较 大 
的 影响 力 。 师 资 力 量 的 补充 ， 又 为 全 面 推进 更 加 激进 的 教学 改革 创造 了 
条 件 。 


本 书 的 出 版 标志 着 国际 上 计算 机 教学 进入 了 第 三 阶段 。 从 历史 来 看 ， 
国际 上 计算 机 教学 先后 经 历 了 三 个 主要 阶段 。 第 一 阶段 是 上 世纪 70 年 代 
中 期 至 80 年 代 中 期 ， 那 时 理论 、 技 术 还 不 成 熟 ， 系 统 不 稳定 ， 因 此 教材 
主要 围绕 若干 重要 问题 讲授 不 同 流派 的 观点 ， 学 生 解 决 实际 问题 的 能 力 


不 强 。 第 二 阶段 是 上 世纪 80 年 代 中 期 至 本 世纪 初 ， 当 时 计算 机 单机 系统 的 理论 和 技术 已 逐步 
趋 于 成 熟 ， 主 流 系统 稳定 ， 因 此 教材 主要 围绕 主流 系统 讲解 理论 和 技术 ， 学 生 的 理论 基础 扎 
实 ， 动 手 能 力 踢 。 第 三 阶段 从 本 世纪 初 开始 ， 主 要 育 景 是 随 春 互联 网 的 兴起 ， 信 息 技 术 开 始 渗 
透 到 人 类 工作 和 生活 的 方方面面 。 技 术 爆 炸 迫 使 教学 者 必须 重 构 传 统 的 以 计算 机 单机 系统 为 主 
导 的 课程 体系 。 新 的 体系 大 面积 调整 了 核心 课程 的 内 容 。 核 心 课程 承担 了 帮助 学 生 构 建 专业 知 
识 框架 的 任务 ， 为 学 生 在 毕业 后 相当 长 时 间 内 的 专业 发 展 葛 定 坚 实 基 础 。 现 在 一 般 认 为 问题 抽 
象 、 系 统 抽象 和 数据 抽象 是 计算 机 类 专业 毕业 生 的 核心 能 力 。 而 本 书 担 负 起 了 系统 抽象 的 重 
任 ， 因 此 美国 的 很 多 高 校 都 采用 了 该 书 作为 计算 机 系统 核心 课程 的 教材 。 第 三 阶段 的 教材 与 第 
二 阶段 的 教材 是 互补 关系 。 第 三 阶段 的 教材 主要 强调 坚实 而 宽广 的 基础 ， 第 二 阶段 的 教材 主要 
强调 深入 系统 的 专门 知识 ， 因 此 依然 在 本 科 高 年 级 方向 课 和 人 研究 生 专 业 课 中 占据 重要 地 位 。 


上 世纪 80 年 代 初 ， 我 国 借鉴 美国 经 验 建 立 了 自己 的 计算 机 教学 体系 并 引进 了 大 量 教材 。 
从 21 世纪 初 开 始 ， 一 些 学 校 开 始 借鉴 美国 第 二 阶段 的 教学 方法 ， 采 用 了 部 分 第 二 阶段 的 著名 
教材 ， 这 些 改 革 正 在 走向 成 熟 并 得 以 推广 。2012 年 北京 大 学 计算 机 专业 采用 本 书 作 为 教材 后 ， 
采用 本 教材 开设 “计算 机 系统 基础 "课程 的 高 校 快速 增加 。 以 此 为 契机 ， 国 内 的 计算 机 教学 也 有 
望 全 面 进入 第 三 阶段 。 


本 书 的 第 3 版 完全 按照 x86-64 系统 进行 改写 。 此 外 ， 第 2 版 中 删除 了 以 x87 呈现 的 浮 点 指 
令 ， 在 第 3 版 中 浮 点 指令 又 以 标量 AVX2 的 形式 得 以 恢复 。 第 3 版 更 加 强调 并 发 ， 增 加 了 较 大 
篇 幅 用 于 讨论 信号 处 理 程序 与 主 程序 间 并 发 时 的 正确 性 保障 。 总 体 而 言 ， 本 书 的 三 个 版 本 在 结 
构 上 没有 太 大 变化 ， 不 同 版 本 的 出 现 主要 是 为 了 在 细节 上 能 够 更 好 地 反映 技术 的 最 新 变化 。 


当然 本 书 的 菜 些 部 分 对 于 初学 者 而 言 还 是 有 些 难 以 阅读 。 本 书 涉及 大 量 重要 概念 ， 但 一 些 
概念 首次 亮相 时 并 没有 编排 好 顺序 。 例 如 寄存 颖 的 概念 、 汇 编 指 令 的 顺序 执行 模式 、PC 的 概 
念 等 对 于 初学 者 而 言 非常 耻 生 ,但 这 些 介绍 仅仅 出 现在 第 1 章 的 总 览 中 ， 而 当 第 3 章 介 绍 汇编 
时 完全 没有 进一步 的 展开 就 假设 读者 已 经 非常 清楚 这 些 概念 。 事 实 上 这 些 概念 原本 就 介绍 得 过 
于 人 简单， 短暂 亮相 之 后 又 立即 退场 ， 相 隔 较 长 时 间 后 ， 当 这 些 概念 再 次 登场 时 ， 初 学 者 早已 忘 
却 了 它们 是 什么 。 同 样 ， 第 8 革 对 进程 、 并 发 等 概念 的 介绍 也 存在 类 似 问 题 。 因 此 ， 中 文 翻译 


版 将 配备 导读 部 分 ， 希望 这 些 导读 能 够 帮助 初学 者 顺利 阅读 . 
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书 第 1 版 出 版 于 2003 年 ， 第 2 版 出 版 于 2011 年 ， 去 年 发 行 的 已 
ee eng ot ee si 
x86 架构 机 器 上 运行 Linux 操作 系统 ， 采 用 C 语言 编程 。 这 样 的 组 合 经 受 
住 了 时 间 的 考验 。 这 一 版 的 一 个 明显 变化 就 是 从 讲解 IA32 和 x86-64 转变 
为 完全 以 x86-64 为 基础 ， 相 应 地 修改 了 第 3、4、5、6 和 7 章 。 同 时 ， 还 
改写 了 第 2 革 ， 使 之 更 易 读 、 好 懂 ; 用 近期 的 新 技术 更 新 了 第 6、11 和 
12 草 。 这 些 变 化 使 得 本 书 既 和 新 技术 保持 了 同步 ， 又 保留 了 描述 系统 本 
质 的 内 容 以 及 从 程序 员 和 角度 出 发 的 特色 。 


除了 翻译 本 书 ， 我 们 也 开始 以 本 书 为 教材 讲授 “计算 机 系统 基础 课 
程 ， 对 这 本 书 的 理解 也 随 之 越 来 越 深入 ， 意 识 到 除了 阅读 之 外 ， 动 手 实 
践 更 是 学 习 计 算 机 系统 的 必 经 之 路 。 本 书 的 官网 提供 了 很 多 实验 作业 
(Lab Assignment) ， 其 中 不 乏 有 趣 且 有 一 定 难度 的 实验 ， 比 如 Bomb Lab。 
有 兴趣 的 读者 除了 阅读 本 书 的 内 容 之 外 ， 还 应 该 试 着 去 完成 这 些 实验 ， 
让 纸 面 上 的 内 容 在 实际 动手 中 得 到 巩固 和 加 强 。 本 书 的 官方 博客 也 不 断 
更 新 着 有 关 这 本 书 和 配套 课程 的 最 新 变化 ， 这 也 是 对 本 书 的 有 益 补充 。 


第 3 版 从 翻译 的 角度 来 说 ， 我 们 尽量 做 到 更 流畅 ， 更 符合 中 文 表达 
的 习惯 。 对 于 一 些 术 语 ， 比 如 memory， 以 前 怕 出 错 就 统一 翻译 成 存储 
人 镶 ， 现 在 则 尽 可 能 地 按照 语 境 去 区 分 ， 翻 译 成 内 存 或 者 存储 器 。 


在 此 ， 要 感谢 本 书 的 编辑 朱 动 、 姚 蓄 以 及 和 静 ， 有 她 们 的 支持 、 鼓 
励 和 耐心 细致 的 工作 ,才能 让 本 书 如 期 与 读者 见面 。 


由 于 本 书 内 容 多 ， 翻 译 时 间 紧 迫 ， 尽 管 我 们 尽量 做 到 认真 仔细 ， 但 
还 是 难以 避免 出 现 错误 和 不 尽 如 和 人意 的 地 方 。 在 此 欢迎 广大 读者 批评 指 
正 。 我 们 也 会 一 如 既往 地 维护 勘误 表 ， 及 时 在 网 上 更 新 ， 方便 大 家 阅读 。 
(为 外 ， 本 版 第 1 次 印刷 时 ,我们 已 经 根据 官网 2016 年 3 月 1 日 前 发 布 的 
勘误 进行 了 修正 ， 就 不 在 中 文 勘误 中 再 翻译 了 。) 


颖 奕 利 贺 着 
2016 年 5 月 于 玫 珈 山 


书 ( 简 称 CS:APP) 的 主要 读者 是 计算 机 科学 家 、 计 算 机 工程 师 ， 以 及 
那些 想 通 过 学 习 计 算 机 系统 的 内 在 运作 而 能 够 写 出 更 好 程序 的 人 。 


我 们 的 目的 是 解释 所 有 计算 机 系统 的 本 质 概念 ， 并 向 你 展示 这 些 概 
念 是 如 何 实 实在 在 地 影响 应 用 程序 的 正确 性 、 性 能 和 实用 性 的 。 其 他 的 
系统 类 书籍 部 是 从 构建 者 的 角度 来 写 的 ， 讲 述 如 何 实现 便 件 或 系统 软件 ， 
包括 操作 系统 、 编 译 占 和 网 络 接口 。 而 本 书 是 从 程序 员 的 角度 来 写 的 ， 
讲述 应 用 程序 员 如 何 能 够 利用 系统 知识 来 编写 出 更 好 的 程序 。 当 然 ， 学 
习 一 个 计算 机 系统 应 该 做 些 什 么 ， 是 学 习 如 何 构建 一 个 计算 机 系统 的 很 
好 的 出 发 点 ， 所 以 ， 对 于 布 望 继 续 学 习 系 统 软 硬件 实现 的 人 来 说 ， 本 书 
也 是 一 本 很 有 价值 的 介绍 性 读物 。 大 多 数 系统 书籍 还 倾向 于 重点 关注 系 
统 的 茶 一 个 方面 ， 比 如 : 硬件 以 构 、 操 作 系统 、 编 译 硕 或 者 网 络 。 本 书 
则 以 程序 员 的 视角 统一 覆盖 了 上 述 所 有 方面 的 内 容 。 


如 果 你 研究 和 领会 了 这 本 书 里 的 概念 ， 你 将 开始 成 为 极 少数 的 “和 牛 
人 ”， 这 些 “ 牛 人 ”知道 事情 是 如 何 运 作 的 ， 也 知道 当 事 情 出 现 故障 时 如 
何 修复 。 你 写 的 程序 将 能 够 更 好 地 利用 操作 系统 和 系统 软件 提供 的 功能 ， 
对 各 种 操作 条 件 和 运行 时 参数 都 能 正确 操作 ， 和 运行 起 来 更 快 ， 并 能 避免 出 
现 使 程序 容易 受到 网 络 攻击 的 缺陷 。 同 时 ， 你 也 要 做 好 更 深入 探究 的 准备 ， 
研究 像 编 译 恬 、 计 算 机 体系 结构 、 操 作 系统 、 舱 人 式 系 统 、 网 络 互 联 和 网 络 
安全 这 样 的 高 级 题目 。 


读者 应 具备 的 背景 知识 

本 书 的 重点 是 执行 x86-64 机 器 代码 的 系统 。 对 英特尔 及 其 竞争 对 手 而 
言 ，x86-64 是 他 们 自 1978 年 起 ， 以 8086 微 处 理 器 为 代表 ， 不 断 进化 的 最 新 
成 果 。 按 照 英 特 尔 微 处 理 需 产品 线 的 命名 规则 ， 这 类 微 处 理 需 俗称 为 “x86”。 
随 着 半导体 技术 的 演进 ， 单 芯片 上 集成 了 更 多 的 晶体 管 ， 这 些 处 理 器 的 计算 
能 力 和 内 存 容量 有 了 很 大 的 增长 。 在 这 个 过 程 中 ,它们 从 处 理 16 位 字 ， 发 展 
到 引入 IA32 处 理 絮 处 理 32 位 字 ， 再 到 最 近 的 x86-64 处 理 64 位 字 。 


我 们 考虑 的 是 这 些 机 器 如 何在 Linux 操作 系统 上 运行 C 语言 程序 。 
Linux 是 众多 继承 自 最 初 由 贝尔 实验 室 开 发 的 Unix 的 操作 系统 中 的 一 种 。 
这 类 操作 系统 的 其 他 成 员 包 括 Solaris、FreeBSD 和 MacOS X。 近 年 来 ， 
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由 于 Posix 和 标准 Unix 规范 的 标准 化 努力 ， 这 些 操 作 系 统 保 持 了 高 度 兼容 性 。 因 此 ， 本 书 内 
容 几 乎 直接 适用 于 这 些 “ 类 Unix” 操作 系统 。 


文中 包含 大 量 已 在 Linux 系统 上 编译 和 运行 过 的 程序 示例 。 我 们 假设 你 能 访问 一 台 这 样 的 
机 器 ， 并 且 能 够 登录 ， 做 一 些 诸如 切换 目录 之 类 的 简单 操作 。 如 果 你 的 计算 机 运行 的 是 Mi- 
crosoft Windows 系统 ,我们 建议 你 选择 安装 一 个 虚拟 机 环境 (例如 VirtualBox 或 者 VMWare)， 
以 便 为 一 种 操作 系统 (客户 OS) 编 写 的 程序 能 在 另 一 种 系统 (宿主 OS) 上 运行 。 


我 们 还 假设 你 对 C 和 C++ 有 一 定 的 了 解 。 如 果 你 以 前 只 有 Java 经 验 ， 那 么 你 需要 付出 更 
多 的 努力 来 完成 这 种 转换 ， 不 过 我 们 也 会 帮助 你 。Java 和 C 有 相似 的 语法 和 控制 语句 。 不 过 ， 
有 一 些 C 语言 的 特性 (特别 是 指针 、 显 式 的 动态 内 存 分 配 和 格式 化 IO) 在 Java 中 都 是 没有 的 。 
所 幸 的 是 ，C 是 一 个 较 小 的 语言 ， 在 Brian Kernighan 和 Dennis Ritchie 经 上 典 的 “K&R” 文 献 中 
得 到 了 清晰 优美 的 描述 L61]。 无 论 你 的 编程 背景 如 何 ， 都 应 该 考虑 将 K&R 作为 个 人 系统 藏书 
的 一 部 分 。 如 果 你 只 有 使 用 解释 性 语言 的 经 验 ， 如 Python、Ruby 或 Perl， 那 么 在 使 用 本 书 之 
前 ， 需 要 花费 一 些 时 间 来 学 习 C。 


本 书 的 前 几 章 揭示 了 C 语言 程序 和 它们 相对 应 的 机 器 语言 程序 之 间 的 交互 作用 。 机 器 语言 
示例 都 是 用 运行 在 x86-64 处 理 器 上 的 GNU GCC 编译 器 生成 的 。 我 们 不 需要 你 以 前 有 任何 硬 
件 、 机 器 语言 或 是 汇编 语言 编程 的 经 验 。 


给 C 语言 初学 者 | 6 坟 : 寺 = 老 必 瑟 二 3 关于 C 编程 语言 的 建议 
为 了 帮助 C 语言 编程 背景 薄弱 (或 全 无 背景 ) 的 读者 ， 我 们 在 书 中 加 入 了 这 样 一 些 专门 的 
注释 来 突出 C 中 一 些 特别 重要 的 特性 。 我 们 假设 你 熟悉 C++ 或 Java。 


如 何 阅 读 此 书 


从 程序 员 的 角度 学 习 计算 机 系统 是 如 何 工 作 的 会 非常 有 趣 ， 主 要 是 因为 你 可 以 主动 地 做 这 
件 事情 。 无 论 何 时 你 学 到 一 些 新 的 东西 ， 都 可 以 马上 试验 并 且 直 接 看 到 运行 结果 。 事 实 上 ， 我 
们 相信 学 习 系 统 的 唯一 方法 就 是 做 (do) 系 统 ， 即 在 真正 的 系统 上 解决 具体 的 问题 ， 或 是 编写 和 
运行 程序 。 


这 个 主题 观念 贯穿 全 书 。 当 引入 一 个 新 概念 时 ， 将 会 有 一 个 或 多 个 练习 题 紧 随 其 后 ， 你 应 
该 马上 做 一 做 来 检验 你 的 理解 。 这 些 练习 题 的 解答 在 每 章 的 末尾 。 当 你 阅读 时 ， 尝 试 日 已 来 解 
答 每 个 问题 ， 然 后 再 查阅 答案 ， 看 自己 的 答案 是 否 正确 。 除 第 1 章 外 ， 每 章 后 面 都 有 难度 不 同 
的 家 庭 作业 。 对 每 个 家 庭 作业 题 ， 我 们 标注 了 难度 级 别 : 


* 只 需要 几 分 钟 。 几 乎 或 完全 不 需要 编程 。 
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** 可 能 需要 将 近 20 分 钟 。 通 常 包括 编写 和 测试 一 些 代 码 。( 许 多 都 源 目 我们 在 考试 中 出 
的 题目 。) 


可 需要 很 大 的 努力 ， 也 许 是 1 一 2 个 小 时 。 一 般 包 括 编 写 和 测试 大 量 的 代码 。 
村 一 个 实验 作业 ， 需 要 将 近 10 个 小 时 。 


文中 每 段 代 码 示 例 都 是 由 经 过 GCC 编译 的 C 程序 直接 生成 并 在 Linux 系统 上 进行 了 测试 ， 
没有 任何 人 为 的 改动 。 当 然 ， 你 的 系统 上 GCC 的 版 本 可 能 不 同 ， 或 者 根本 就 是 另外 一 种 编译 
器 ， 那 么 可 能 生成 不 一 样 的 机 器 代码 ， 但 是 整体 行为 表现 应 该 是 一 样 的 。 所 有 的 源 程序 代码 都 
可 以 从 csapp. cs. cmu. edu 上 的 CS:APP 主页 上 获取 。 在 本 书 中 ， 源 程序 的 文件 名 列 在 两 条 水 平 线 的 
右边 水平线 之 间 是 格式 化 的 代码 。 比 如 , 图 1 中 的 程序 能 在 code/intro/ 目录 下 的 hello. 文件 中 找 
。 当 遇 到 这 些 示 例 程序 时 ， 我 们 鼓励 你 在 自己 的 系统 上 试 着 运行 它们 。 


code/intro/hello.c 
1 #include <stdio.h> 
2 
3 int main() 
4 +{ 
5 printf("hello, world\n'"); 
6 return 0; 
7 J} 

code/intro/hello.c 


图 1 一 个 典型 的 代码 示例 
为 了 避免 本 书 体 积 过 大 、 内 容 过 多 ， 我们 添加 了 许多 网 络 劣 注 (Web aside)， 包括 一 些 对 
本 书 主要 内 容 的 补充 资料 。 本 书 中 用 CHAP: TOP 这 样 的 标记 形式 来 引用 这 些 旁 注 ， 这 里 
CHAP 是 该 草 主 题 的 缩写 编码 ， 而 TOP 是 涉及 的 话题 的 缩写 编码 。 例 如 ， 网 络 劳 注 DATA: 
BOOL 包含 对 第 2 章 中 数据 表示 里 面 有 关 布 尔 代 数 内 容 的 补充 资料 ; 而 网 络 旁 注 ARCH: 
VLOG 包含 的 是 用 Verilog 硬件 描述 语言 进行 处 理 需 设计 的 资料 ， 是 对 第 4 章 中 处 理 器 设计 部 
分 的 补充 。 所 有 的 网 络 劳 注 都 可 以 从 CS:APP 的 主页 上 获取 。 


在 整 本 书 中 ， 你 将 会 遇 到 很 多 以 这 种 形式 出 现 的 旁 注 。 旁 注 是 附加 说 明 ， 能 使 你 对 当前 
讨论 的 主题 多 一 些 了 解 。 旁 注 可 以 有 很 多 用 处 。 一 些 是 小 的 历史 故事 。 例如，C 语言 、 
Linux 和 Internet 是 从 何 而 来 的 ? 有 些 旁 注 则 是 用 来 漆 清 学 生 们 经 常 感到 疑惑 的 问题 。 例 如 ， 
高 速 缓存 的 行 、 组 和 块 有 什么 区 别 ? 还 有 些 旁 注 给 出 了 一 些 现实 世界 的 例子 。 例 如 ， 一 个 浮 
点 错误 怎么 毁 掉 了 法 国 的 一 枚 火 获 ， 或 是 给 出 市 面 上 出 售 的 一 个 磁盘 驱动 器 的 几何 和 运行 参 
数 。 最 后 ， 还 有 一 些 淮 注 仅 仅 就 是 一 些 有 趣 的 内 容 ， 例如 ， 什么 是 “hoinky”? 
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本 书 概述 
本 书 由 12 章 组 成 ， 旨 在 阐述 计算 机 系统 的 核心 概念 。 内 容 概述 如 下 : 


@ 第 1 章 : 计算 机 系统 漫游 。 这 一 章 通过 研究 “hello，world” 这 个 简单 程序 的 生命 周期 ， 


介绍 计算 机 系统 的 主要 概念 和 主题 。 

第 2 章 : 信息 的 表示 和 处 理 。 我 们 讲述 了 计算 机 的 算术 运算 ,重点 描述 了 会 对 程序 员 有 
影响 的 无 符号 数 和 数 的 补 码 表示 的 特性 。 我 们 考虑 数字 是 如 何 表示 的 ， 以 及 由 此 确定 对 
于 一 个 给 定 的 字 长 ， 其 可 能 编码 值 的 范围 。 我 们 探讨 有 符号 和 无 符号 数字 之 间 类 型 转换 
的 效果 ， 还 阐述 算术 运算 的 数学 特性 。 菜 鸟 级 程序 员 经 常 很 惊奇 地 了 解 到 (用 补 码 表示 的 ) 
两 个 正 数 的 和 或 者 积 可 能 为 负 。 另 一 方面 ， 补 码 的 算术 运算 满足 很 多 整数 运算 的 代数 特 
性 ， 因 此 ， 编 译 器 可 以 很 安全 地 把 一 个 常量 乘法 转化 为 一 系列 的 移 位 和 加 法 。 我 们 用 人 
语言 的 位 级 操作 来 说 明 布 尔 代数 的 原理 和 应 用 。 我 们 从 两 个 方面 讲述 了 IEEE 标准 的 浮 点 
格式 : 一 是 如 何 用 它 来 表示 数值 ， 一 是 浮 点 运算 的 数学 属性 。 

对 计算 机 的 算术 运算 有 深刻 的 理解 是 写 出 可 靠 程序 的 关键 。 比 如 ， 程 序 员 和 编译 器 
不 能 用 表达 式 (x-y<0) 来 替代 (x<y)， 因 为 前 者 可 能 会 产生 溢出 。 其 至 也 不 能 用 表达 式 
(-y<-x) 来 蔡 代 ， 因 为 在 补 码 表示 中 负数 和 正 数 的 范围 是 不 对 称 的 。 算 术 溢 出 是 造成 程 
序 错误 和 安全 漏洞 的 一 个 常见 根源 ， 然 而 很 少 有 书 从 程序 员 的 角度 来 讲述 计算 机 算术 运 
算 的 特性 。 

第 3 章 : 程序 的 机 器 级 表示 。 我 们 教 读者 如 何 阅读 由 C 编译 器 生成 的 x86-64 机 器 代码 。 
我 们 说 明 为 不 同 控制 结构 (比如 条 件 、 循 环 和 开关 语句 ) 生 成 的 基本 指令 模式 。 我 们 还 讲述 
过 程 的 实现 ， 包 括 栈 分 配 、 寄 存 器 使 用 惯例 和 参数 传递 。 我 们 讨论 不 同 数据 结构 (如 结构 、 
联合 和 数组 ) 的 分 配 和 访问 方式 。 我 们 还 说 明 实现 整数 和 浮 点 数 算术 运算 的 指令 。 我 们 还 
以 分 析 程 序 在 机 器 级 的 样子 作为 途径 ， 来 理解 常见 的 代码 安全 漏洞 (例如 缓冲 区 洲 出 )， 以 
及 理解 程序 员 、 编 译 器 和 操作 系统 可 以 采取 的 减轻 这 些 威胁 的 措施 。 学 习 本 章 的 概念 能 
够 帮助 读者 成 为 更 好 的 程序 员 ， 因 为 你 们 懂得 程序 在 机 器 上 是 如 何 表示 的 。 另 外 一 个 好 
处 就 在 于 读者 会 对 指针 有 非常 全 面 而 具体 的 理解 。 

第 4 章 : 处 理 器 体系 结构 。 这 一 章 讲述 基本 的 组 合 和 时 序 逻 辑 元 素 ， 并 展示 这 些 元 素 如 
何在 数据 通路 中 组 合 到 一 起 ， 来 执行 x86-64 指令 集 的 一 个 称 为 “Y86-64” 的 简化 子 集 。 
我 们 从 设计 单 时 钟 周 期 数据 通路 开始 。 这 个 设计 概念 上 非常 简单 ， 但 是 运行 速度 不 会 太 
快 。 然 后 我 们 引入 流水 线 的 思想 ， 将 处 理 一 条 指令 所 需要 的 不 同步 又 实现 为 独立 的 阶段 。 
这 个 设计 中 ， 在 任何 时 刻 ， 每 个 阶段 都 可 以 处 理 不 同 的 指令 。 我 们 的 五 阶段 处 理 器 流水 
线 更 加 实用 。 本 章 中 处 理 器 设计 的 控制 逻辑 是 用 一 种 称 为 HCL 的 简单 硬件 描述 语言 来 描 
述 的 。 用 HCL 写 的 硬件 设计 能 够 编译 和 链接 到 本 书 提供 的 模拟 器 中 ， 还 可 以 根据 这 些 设计 
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生成 Verilog 描述 ， 它 适合 合成 到 实际 可 以 运行 的 硬件 上 去 。 

@ 第 5 章 : 优化 程序 性 能 。 在 这 一 章 里 ,我们 介绍 了 许多 提高 代码 性 能 的 技术 ， 主 要 思想 
就 是 让 程序 员 通 过 使 编译 器 能 够 生成 更 有 效 的 机 器 代码 来 学 习 编 写 C 代码 。 我 们 一 开始 
介绍 的 是 减少 程序 需要 做 的 工作 的 变换 ， 这 些 是 在 任何 机 器 上 写 任 何 程序 时 都 应 该 遵循 
的 。 然 后 讲 的 是 增加 生成 的 机 器 代码 中 指令 级 并 行 度 的 变换 ， 因 而 提高 了 程序 在 现代 
“超标 量 ” 处 理 器 上 的 性 能 。 为 了 解释 这 些 变换 行 之 有 效 的 原理 ， 我 们 介绍 了 一 个 简单 
的 操作 模型 ， 它 描述 了 现代 乱 序 处 理 器 是 如 何 工 作 的 ， 然 后 给 出 了 如 何 根据 一 个 程序 的 
图 形 化 表示 中 的 关键 路 径 来 测量 一 个 程序 可 能 的 性 能 。 你 会 惊讶 于 对 C 代码 做 一 些 简单 
的 变换 能 给 程序 带 来 多 大 的 速度 提升 。 

@ 第 6 章 ; 存储 器 层次 结构 。 对 应 用 程序 员 来 说 ， 存 储 器 系统 是 计算 机 系统 中 最 直接 可 见 
的 部 分 之 一 。 到 目前 为 止 ， 读 者 一 直 认 同 这 样 一 个 存储 器 系统 概念 模型 ， 认 为 它 是 一 个 
有 一 致 访 问 时 间 的 线性 数组 。 实 际 上 ， 人 存储 硕 系 统 是 一 个 由 不 同 容量 、 造 价 和 访问 时 间 
的 存储 设备 组 成 的 层次 结构 。 我 们 讲述 不 同类 型 的 随机 存 取 存储 器 (RAM) 和 只 读 存 储 器 
(ROM) ， 以 及 磁盘 和 固态 硬盘 的 几何 形状 和 组 织 构 造 。 我 们 描述 这 些 存储 设备 是 如 
何 放置 在 层次 结构 中 的 ， 讲 述 访问 局 部 性 是 如 何 使 这 种 层次 结构 成 为 可 能 的 。 我 们 通 
过 一 个 独特 的 观点 使 这 些 理论 具体 化 ， 那 就 是 将 存储 器 系统 视 为 一 个 “存储 需 山 ”， 
山 状 是 时 间 局 部 性 ， 而 斜坡 是 空间 局 部 性 。 最 后 ， 我 们 向 读者 阐述 如 何 通 过 改善 程序 
的 时 间 局 部 性 和 空间 局 部 性 来 提高 应 用 程序 的 性 能 。 

e@ 第 7 章 : 链接 。 本 章 讲 述 静 态 和 动态 链接 ， 包 括 的 概念 有 可 重 定位 的 和 可 执行 的 目 
标 文 件 、 符 号 解析 、 重 定位 、 静 态 库 、 共 享 目 标 库 、 位 置 无 关 代 码 ， 以 及 库 打 桩 。 
大 多 数 讲 述 系 统 的 书 中 都 不 讲 链接 ， 我们 要 讲述 它 是 出 于 以 下 原因 。 第 一 ,程序 员 
遇 到 的 最 令 人 迷惑 的 问题 中 ， 有 一 些 和 链接 时 的 小 故障 有 关 ， 尤 其 是 对 那些 大 型 软 
件 包 来 说 。 第 二 ， 链 接 需 生成 的 目标 文件 是 与 一 些 像 加 载 、 虚 拟 内 和 存 和 内 存 映 射 这 
样 的 概念 相关 的 。 

@ 第 8 章 : 异常 控制 流 。 在 本 书 的 这 个 部 分 ,我们 通过 介绍 异常 控制 流 ( 即 除 正 党 分 
支 和 过 程 调用 以 外 的 控制 流 的 变化 ) 的 一 般 概 念 ， 打 破 单一 程序 的 模型 。 我 们 给 出 
存在 于 系统 所 有 层次 的 异常 控制 流 的 例子 ， 从 底层 的 硬件 异常 和 中 断 ， 到 并 发 进程 
的 上 下 文 切换 ， 到 由 于 接收 Linux 信号 引起 的 控制 流 突 变 ， 到 C 语言 中 破坏 栈 原则 
的 非 本 地 跳 转 。 

在 这 一 章 ， 我 们 介绍 进程 的 基本 概念 ， 进 程 是 对 一 个 正在 执行 的 程序 的 一 种 抽 
象 。 读 者 会 学 习 进 程 是 如 何 工 作 的 ， 以 及 如 何在 应 用 程序 中 创建 和 操纵 进程 。 我 们 


日 ”直译 应 为 固态 驱动 右 ， 但 固态 人 硬盘 一 词 已 经 被 大 家 接受 ， 所 以 沿用 。 一 一 译 者 注 
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会 展示 应 用 程序 员 如 何 通 过 Linux 系统 调用 来 使 用 多 个 进程 。 学 完 本 章 之 后 ， 读 者 
就 能 够 编写 带 作 业 控 制 的 Linux shell 了 。 同 时 ， 这 里 也 会 向 读者 初步 展示 程序 的 并 
发 执行 会 引起 不 确定 的 行为 。 

第 9 章 ; 虚拟 内 看。 我 们 讲述 虚拟 内 存 系统 是 希望 读者 对 它 是 如 何 工作 的 以 及 它 的 特 
性 有 所 了 解 。 我 们 想 让 读者 了 解 为 什么 不 同 的 并 发 进程 各 自 都 有 一 个 完全 相同 的 地 址 
范围 ， 能 共享 某 些 页 ， 而 又 独占 另外 一 些 页 。 我 们 还 讲 了 一 些 管理 和 操纵 虚拟 内 存 的 
问题 。 特 别 地 ， 我 们 讨论 了 存储 分 配 操作 ， 就 像 标 准 库 的 malloc 和 free 操作 。 阐 述 
这 些 内 容 是 出 于 下 面 几 个 目的 。 它 加 强 了 这 样 一 个 概念 ， 那 就 是 虚拟 内 存 空 间 只 是 

个 字 节 数组 ， 程 序 可 以 把 它 划 分 成 不 同 的 存储 单元 。 它 可 以 帮助 读者 理解 当 程序 包含 
存储 泄漏 和 非法 指针 引用 等 内 存 引 用 错误 时 的 后 果 。 最 后 ， 许 多 应 用 程序 员 编 写 自 己 
的 优化 了 的 存储 分 配 操作 来 满足 应 用 程序 的 需要 和 特性 。 这 一 章 比 其 他 任何 一 章 都 更 
能 展现 将 计算 机 系统 中 的 硬件 和 软件 结合 起 来 曾 述 的 优点 。 而 传统 的 计算 机 体系 结构 
和 操作 系统 书籍 都 只 讲述 虚拟 内 存 的 某 一 方面 。 

第 10 章 : 系统 级 IJO。 我 们 讲述 Unix 1/O 的 基本 概念 ， 例 如 文件 和 描述 符 。 我 们 
描述 如 何 共享 文件 ，I/O 〇 重 定向 是 如 何 工 作 的 ， 还 有 如 何 访 问 文件 的 元 数据 。 我 们 
还 开发 了 一 个 健壮 的 带 缓冲 区 的 1/O 包 ， 可 以 正确 处 理 一 种 称 为 short counts 的 奇 
特 行为 ， 也 就 是 库 函 数 只 读 取 一 部 分 的 输入 数据 。 我 们 阐述 C 的 标准 IO 库 ， 以 及 
它 与 Linux 1/O 的 关系 ， 重 点 谈 到 标准 1/O 的 局 限 性 ， 这 些 局 限 性 使 之 不 适合 网 络 
编程 。 总 的 来 说 ， 本 章 的 主题 是 后 面 两 草 一 一 网 络 和 并 发 编程 的 基础 。 

第 11 章 : 网 络 编程 。 对 编程 而 言 ， 网 络 是 非常 有 趣 的 MO 设备 ， 它 将 许多 我 们 前 面 
文中 学 习 的 概念 (比如 进程 、 信 号 、 字 节 顺 序 、 内 存 映射 和 动态 内 存 分 配 ) 联 系 在 一 起 。 
网 络 程序 还 为 下 一 章 的 主题 一 一 并 发 ， 提 供 了 一 个 很 令 人 信服 的 上 下 文 。 本 章 只 是 网 
络 编程 的 一 个 很 小 的 部 分 ， 使 读者 能 够 编写 一 个 简单 的 Web 服务 器 。 我 们 还 讲述 位 于 
所 有 网 络 程序 底层 的 客户 端 - 服 务 需 模型 。 我 们 展现 了 一 个 程序 员 对 Internet 的 观点 ， 
并 且 教 读者 如 何 用 套 接 字 接 口 来 编写 Internet 客户 端 和 服务 器 。 最 后 ， 我 们 介绍 超 文 
本 传输 协议 (HTTP)， 并 开发 了 一 个 简单 的 迭代 式 Web 服务 器 。 

第 12 章 : 并 发 编程 。 这 一 章 以 Internet 服务 需 设 计 为 例 介 绍 了 并 发 编程 。 我 们 比较 
对 照 了 三 种 编写 并 发 程序 的 基本 机 制 (进程 、I/O 多 路 复 用 和 线程 )， 并 且 展 示 如 何 用 
它们 来 建造 并 发 Internet 服务 器 。 我 们 探讨 了 用 P、V 信号 量 操作 来 实现 同步 、 线 程 
安全 和 可 重信、 竞争 条 件 以 及 死 锁 等 的 基本 原则 。 对 大 多 数 服务 器 应 用 来 说 ， 写 并 发 
代码 都 是 很 关键 的 。 我 们 还 讲述 了 线程 级 编程 的 使 用 方法 ， 用 这 种 方法 来 表达 应 用 程 
序 中 的 并 行 性 ， 使 得 程序 在 多 核 处 理 器 上 能 执行 得 更 快 。 使 用 所 有 的 核 解 决 同 一 个 计 
算 问 题 需要 很 小 心 谨慎 地 协调 并 发 线程 ， 既 要 保证 正确 性 ， 又 要 争取 获得 高 性 能 。 
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本 版 新 增 内 容 


本 书 的 第 1 版 于 2003 年 出 版 ， 第 2 版 在 2011 年 出 版 。 考 虑 到 计算 机 技术 发 展 如 此 迅速 ， 
这 本 书 的 内 容 还 算是 保持 得 很 好 。 事 实证 明 Intel x86 的 机 器 上 运行 Linux( 以 及 相关 操作 系 
统 )， 加 上 采用 C 语言 编程 ， 是 一 种 能 够 涵盖 当今 许多 系统 的 组 合 。 然 而 ， 硬 件 技术 、 编 译 
器 和 程序 库 接 口 的 变化 ， 以 及 很 多 教师 教授 这 些 内 容 的 经 验 ， 都 促使 我 们 做 了 大 量 的 修改 。 


第 2 版 以 来 的 最 大 整体 变化 是 ， 我 们 的 介绍 从 以 IA32 和 x86-64 为 基础 ， 转 变 为 完全 
以 x86-64 为 基础 。 这 种 重心 的 转移 影响 了 很 多 章节 的 内 容 。 下 面 列 出 一 些 明 显 的 变化 : 


@ 第 1 章 。 我 们 将 第 5 章 对 Amdahl 定理 的 讨论 移 到 了 本 章 。 

e 第 2 章 。 读 者 和 评论 家 的 反馈 是 一 致 的 ， 本 章 的 一 些 内 容 有 点 令 人 不 知 所 措 。 因 
此 ， 我们 澄清 了 一 些 知识 点 ， 用 更 加 数学 的 方式 来 描述 ， 使 得 这 些 内 容 更 容易 理 
解 。 这 使 得 读者 能 先 略 过 数学 细节 ， 获 得 高 层次 的 总 体 概念 ， 然 后 回 过 头 来 进行 更 
细致 深入 的 阅读 。 

e 第 3 章 。 我 们 将 之 前 基于 IA32 和 x86-64 的 表现 形式 转换 为 完全 基于 x86-64， 还 更 
新 了 近期 版 本 GCC 产生 的 代码 。 其 结果 是 大 量 的 重 写 工 作 ， 包 括 修改 了 一 些 概念 
提出 的 顺序 。 同 时 ， 我 们 还 首次 介绍 了 对 处 理 浮 点 数据 的 程序 的 机 器 级 支持 。 由 于 
历史 原因 ， 我 们 给 出 了 一 个 网 络 旁 注 描 述 IA32 机 器 码 。 

e 第 4 章 。 我 们 将 之 前 基于 32 位 架构 的 处 理 器 设计 修改 为 支持 64 位 字 和 操作 的 设计 。 

e 第 5 章 。 我 们 更 新 了 内 容 以 反映 最 近 几 代 x86-64 处 理 器 的 性 能 。 通 过 引入 更 多 的 功 
能 单元 和 更 复杂 的 控制 逻辑 ， 我 们 开发 的 基于 程序 数据 流 表示 的 程序 性 能 模型 ， 其 
性 能 预测 变 得 比 之 前 更 加 可 靠 。 

e 第 6 章 。 我 们 对 内 容 进行 了 更 新 ， 以 反映 更 多 的 近期 技术 。 

e 第 7 章 。 针 对 x86-64， 我 们 重 写 了 本 章 ， 扩 充 了 关于 用 GOT 和 PLT 创建 位 置 无 关 
代码 的 讨论 ， 新 增 了 一 节 描 述 更 加 强大 的 链接 技术 ， 比 如 库 打桩 。 

e 第 8 章 。 我 们 增加 了 对 信号 处 理 程 序 更 细致 的 描述 ， 包 括 异 步 信 号 安全 的 函数 ， 编 写 
信号 处 理 程序 的 具体 指导 原则 ， 以 及 用 sigsuspend 等 待 处 理 程 序 。 

@ 第 9 章 。 本 章 变化 不 大 。 

e 第 10 章 。 我 们 新 增 了 一 节 说 明文 件 和 文件 的 层次 结构 ， 除 此 之 外 ， 本 章 的 变化 
不 大 。 

e 第 11 章 。 我 们 介绍 了 采用 最 新 getaddrinfo 和 getnameinfo 函数 的 、 与 协议 无 
关 和 线程 安全 的 网 络 编程 ， 取 代 过 时 的 、 不 可 重 人 的 gethostbyname 和 gethost- 
byaddr 函数 。 
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e 第 12 章 。 我 们 扩充 了 利用 线程 级 并 行 性 使 得 程序 在 多 核 机 器 上 更 快运 行 的 内 容 。 
此 外 ， 我 们 还 增加 和 修改 了 很 多 练习 题 和 家 庭 作 业 。 


本 书 的 起 源 


本 书 起 源 于 1998 年 秋季 ， 我 们 在 卡 内 基 - 梅 隆 (CMU) 大 学 开设 的 一 门 编号 为 15-213 
的 介绍 性 课程 : 计算 机 系统 导论 (Introduction to Computer System，ICS)[14]。 从 那 以 
后 ， 每 学 期 都 开设 了 ICS 这 门 课 程 ， 每 学 期 有 超过 400 名 学 生 上 课 ， 这 些 学 生 从 本 科 二 年 
级 到 硕士 研究 生 都 有 ， 所 学 专业 也 很 广泛 。 这 门 课 程 是 卡 内 基 -= 梅 隆 大 学 计算 机 科学 系 
(CS) 以 及 电子 和 计算 机 工程 系 (ECE) 所 有 本 科 生 的 必修 课 ， 也 是 CS 和 ECE 大 多 数 高 级 
系统 课程 的 先行 必修 课 。 


ICS 这 门 读 程 的 宗旨 是 用 一 种 不 同 的 方式 向 学 生 介绍 计算 机 。 因 为 ， 我 们 的 学 生 中 几 
乎 没有 人 有 机 会 亲 目 去 构造 一 个 计算 机 系统 。 另 一 方面 ， 大 多 数学 生 ， 甚 至 包括 所 有 的 计 
算 机 科学 家 和 计算 机 工程 师 ， 也 需要 日 常 使 用 计算 机 和 编写 计算 机 程序 。 所 以 我 们 决定 从 
程序 员 的 角度 来 讲解 系统 ， 并 采用 这 样 的 原则 过 滤 要 讲述 的 内 容 : 我 们 只 讨论 那些 影响 用 
户 级 C 语言 程序 的 性 能 、 正 确 性 或 实用 性 的 主题 。 


比如 ， 我 们 排除 了 诸如 硬件 加 法 器 和 总 线 设 计 这 样 的 主题 。 虽 然 我 们 谈 及 了 机 器 语 
言 ， 但 是 重点 并 不 在 于 如 何 手工 编写 汇编 语言 ， 而 是 关注 C 语言 编译 器 是 如 何 将 C 语言 的 
结构 翻译 成 机 顺 代 码 的 ， 包 括 编 译 器 是 如 何 翻 译 指 针 、 循 环 、 过 程 调 用 以 及 开关 (switch) 
语句 的 。 更 进一步 地 ， 我 们 将 更 广泛 和 全 盘 地 看 竺 系统 ， 包 括 硬件 和 系统 软件 ， 涵 盖 了 包 
括 链接 、 加 载 、 进 程 、 信 号 、 性 能 优化 、 虚 拟 内 存 、IZO 以 及 网 络 与 并 发 编程 等 在 内 的 
主题 。 

这 种 做 法 使 得 我 们 讲授 ICS 课程 的 方式 对 学 生来 讲 既 实 有 用、 具体， 还 能 动手 操作 ， 同 
时 也 非常 能 调动 学 生 的 积极 性 。 很 快 地 ， 我 们 收 到 来 自学 生 和 教 职 工 非 常 热烈 而 积极 的 反 
响 ， 我 们 意识 到 卡 内 基 - 梅 隆 大 学 以 外 的 其 他 人 也 可 以 从 我 们 的 方法 中 获 益 。 因 此 ， 这 本 
书 从 ICS 课程 的 笔记 中 应 运 而 生 了 ， 而 现在 我 们 对 它 做 了 修改 ， 使 之 能 够 反映 科学 技术 以 
及 计算 机 系统 实现 中 的 变化 和 进步 。 


通过 本 书 的 多 个 版 本 和 多 种 语言 译本 ，ICS 和 许多 相似 课程 已 经 成 为 世界 范围 内 数 百 
所 高 校 的 计算 机 科学 和 计算 机 工程 课程 的 一 部 分 。 


与 给 指导 教师 们 : 可 以 基于 本 书 的 课程 
指导 教师 可 以 使 用 本 书 来 讲授 五 种 不 同类 型 的 系统 课程 ( 见 图 2) 。 具 体 每 门 课程 则 有 
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赖 于 课程 大 岗 的 要 求 、 个 人 玛 好 、 学 生 的 背景 和 能 力 。 图 中 的 课程 从 左 往 右 越 来 越 强调 以 
程序 员 的 角度 来 看 竺 系统。 以 下 是 简单 的 描述 。 


ORG: 一 门 以 非 传统 风格 讲述 传统 主题 的 计算 机 组 成 原理 课程 。 传 统 的 主题 包括 逻辑 设 
计 、 处 理 器 体系 结构 、 汇 编 语 言 和 存储 器 系统 ， 然 而 这 里 更 多 地 强调 了 对 程序 员 的 影 
啊 。 例 如 ， 要 反 过 来 考虑 数据 表示 对 C 语言 程序 的 数据 类 型 和 操作 的 影响 。 又 例如 ， 对 
汇编 代码 的 讲解 是 基于 C 语言 编译 需 产 生 的 机 峰 代 码 ， 而 不 是 手工 编写 的 汇编 代码 。 
ORG 十 : 一 门 特 别 强调 硬件 对 应 用 程序 性 能 影响 的 ORG 课程 。 和 ORG 课程 相 比 ， 
学 生 要 更 多 地 学 习 代 码 优化 和 改进 C 语言 程序 的 内 存 性 能 。 

ICS: 基本 的 ICS 课程 ， 旨 在 培养 一 类 程序 员 ， 他 们 能 够 理解 硬件 、 操 作 系 统 和 编 
译 系统 对 应 用 程序 的 性 能 和 正确 性 的 影响 。 和 ORG 十 课程 的 一 个 显著 不 同 是 ， 本 
课程 不 涉及 低层 次 的 处 理 器 体系 结构 。 相 反 ， 程 序 员 只 同 现代 乱 序 处 理 器 的 高 级 模 
型 打交道 。ICS 课程 非常 适合 安排 到 一 个 10 周 的 小 学 期 ， 如 果 期 望 步 调 更 从 容 一 
些 ， 也 可 以 延长 到 一 个 15 周 的 学 期 。 

ICS 十 : 在 基本 的 ICS 课程 基础 上 ,额外 论述 一 些 系 统 编程 的 问题 ， 比 如 系统 级 
IO、 网 络 编程 和 并 发 编程 。 这 是 卡 内 基 - 梅 隆 大 学 的 一 门 一 学 期 时 长 的 课程 ， 会 讲 
述 本 书 中 除了 低级 处 理 器 体系 结构 以 外 的 所 有 章 。 

SP: 一 门 系统 编程 课程 。 和 ICS 十 课程 相似 ， 但 是 剔除 了 浮 点 和 性 能 优化 的 内 容 ， 
更 加 强调 系统 编程 ， 包 括 进 程控 制 、 动 态 链接 、 系 统 级 IO、 网 络 编程 和 并 发 编程 。 
指导 教师 可 能 会 想 从 其 他 渠道 对 某 些 高 级 主题 做 些 补充 ， 比 如 守护 进程 (daemon)、 
终端 控制 和 Unix IPC( 进 程 间 通信 )。 


图 2 要 表达 的 主要 信息 是 本 书 给 了 学 生 和 指导 教师 多 种 选择 。 如 果 你 希望 学 生 更 多 地 
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图 2 五 类 基于 本 书 的 课程 


注 ; 符号 表示 惟 盖 部 分 章节 ， 其中; (a) 只 有 硬件 ; (b) 无 动态 存储 分 配 ，(c) 无 动态 链接 ; (d) 无 浮上 点数。 


ICS 十 是 卡 内 基 = 梅 隆 的 15-213 课程 。 
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了 解 低层 次 的 处 理 器 体系 结构 ， 那 么 通过 ORG 和 ORG 十 课程 可 以 达到 目的 。 另 一 方面 ， 
如 采 你 想 将 当前 的 计算 机 组 成 原理 课程 转换 成 ICS 或 者 ICS 十 课程 ， 但 是 又 对 突然 做 这 样 
剧烈 的 变化 感到 担心 ， 那么 你 可 以 逐步 递增 转向 ICS 课程 。 你 可 以 从 OGR 课程 开始 ， 它 
以 一 种 非 传统 的 方式 教授 传统 的 问题 。 一 旦 你 对 这 些 内 容 感到 驾轻就熟 了 ， 就 可 以 转 到 
ORG 十 ， 最终 转 到 ICS。 如 果 学 生 没 有 C 语言 的 经 验 ( 比 如 他 们 只 用 Java 编写 过 程序 )， 
你 可 以 花 几 周 的 时 间 在 C 语言 上 ， 然 后 再 讲述 ORG 或 者 ICS 课程 的 内 容 。 


最 后 ， 我 们 认为 ORG 十 和 SP 课程 适合 安排 为 两 期 (两 个 小 学 期 或 者 两 个 学 期 ) 。 或 者 
你 可 以 考虑 按照 一 期 ICS 和 一 期 SP 的 方式 来 教授 ICS 十 课程 。 


与 给 指导 教师 们 : 经 过 课 莹 验证 的 实验 练习 

ICS 十 课程 在 卡 内 基 - 梅 隆 大 学 得 到 了 学 生 很 高 的 评价 。 学 生 对 这 门 课程 的 评价 ， 中 值 
分 数 一 般 为 5. 0/5.0， 平 均 分 数 一 般 为 4. 6/5.0。 学 生 们 说 这 门 课 非常 有 趣 ， 令 人 兴奋 ， 
主要 就 是 因为 相关 的 实验 练习 。 这 些 实验 练习 可 以 从 CS:APP 的 主页 上 获得 。 下 面 是 本 书 
提供 的 一 些 实验 的 示例 。 


e 数据 实验 。 这 个 实验 要 求学 生 实现 简单 的 逻辑 和 算术 运算 函数 ， 但 是 只 能 使 用 一 个 
非常 有 限 的 C 语言 子 集 。 比 如 ， 只 能 用 位 级 操作 来 计算 一 个 数字 的 绝对 值 。 这 个 实 
验 可 帮助 学 生 了 解 C 语言 数据 类 型 的 位 级 表示 ， 以 及 数据 操作 的 位 级 行为 。 

@ 二 进 制 炸弹 实验 。 二 进 制 炸 弹 是 一 个 作为 目标 代码 文件 提供 给 学 生 的 程序 。 运 行 
时 ， 它 提示 用 户 输入 6 个 不 同 的 字符 串 。 如 果 其 中 的 任何 一 个 不 正确 ， 炸 弹 就 会 
“爆炸 ”， 打 印 出 一 条 错误 消息 ， 并 且 在 一 个 打分 服务 器 上 记录 事件 日 志 。 学 生 必 须 
通过 对 程序 反 汇 编 和 逆向 工程 来 测定 应 该 是 哪 6 个 串 ， 从 而 解除 各 自 炸 弹 的 雷管 。 
该 实验 能 教会 学 生理 解 汇 编 语 言 ， 并 且 强 制 他 们 学 习 怎 样 使 用 调试 硕 。 

e@ 缓冲 区 溢出 实验 。 它 要 求学 生 通 过 利用 一 个 缓冲 区 溢出 漏洞 ， 来 修改 一 个 二 进 制 可 
执行 文件 的 运行 时 行为 。 这 个 实验 可 教会 学 生 栈 的 原理 ， 并 让 他 们 了 解 写 那 种 易于 
遭受 缓冲 区 溢出 攻击 的 代码 的 危险 性 。 

e@ 体系 结构 实验 。 第 4 章 的 几 个 家 庭 作业 能 够 组 合成 一 个 实验 作业 ， 在 实验 中 ， 学 生 
修改 处 理 器 的 HCL 描述 ， 增 加 新 的 指令 ， 修 改 分 支 预 测 策略 ， 或 者 增加 、 删 除 旁 
路 路 径 和 寄存 器 端口 。 修 改 后 的 处 理 器 能 够 被 模拟 ， 并 通过 运行 目 动 化 测试 检测 出 
大 多 数 可 能 的 错误 。 这 个 实验 使 学 生 能 够 体验 处 理 器 设计 中 令 人 激动 的 部 分 ， 而 不 
需要 掌握 逻辑 设计 和 硬件 描述 语言 的 完整 知识 。 

e@ 性 能 实验 。 学 生 必 须 优 化 应 用 程序 的 核心 函数 (比如 卷 积 积分 或 矩阵 转 置 ) 的 性 能 。 这 
个 实验 可 非常 清晰 地 表明 高 速 缓存 的 特性 ， 并 带 给 学 生 低 级 程序 优化 的 经 验 。 
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e@ cache 实验 。 这 个 实验 类 似 于 性 能 实验 ， 学 生 编 写 一 个 通用 高 速 缓存 模拟 硕 ， 并 优 
化 小 型 矩阵 转 置 核心 消 数 ， 以 最 小 化 对 模拟 的 高 速 缓存 的 不 命中 次 数 。 我 们 使 用 
Valgrind 为 矩阵 转 置 核心 函数 生成 真实 的 地 址 访问 记录 。 

e shell 实验 。 学 生 实 现 他 们 自己 的 带 有 作业 控制 的 Unix shell 程序 ， 包 括 Ctrl 十 C 和 
Ctrl 十 Z 按键 ，fg、bg 和 jobs 命令 。 这 是 学 生 第 一 次 接触 并 发 ， 并 且 让 他 们 对 
Unix 的 进程 控制 、 信 号 和 信和 号 处 理 有 清晰 的 了 解 。 

e malloc 实验 。 学 生 实 现 他 们 自己 的 malloc、free 和 realloc( 可 选 ) 版 本 。 这 个 
实验 可 让 学 生 们 清晰 地 理解 数据 的 布局 和 组 织 ， 并 且 要 求 他 们 评估 时 间 和 空间 效率 
的 各 种 权衡 及 折 中 。 

e 代理 实验 。 实 现 一 个 位 于 浏览 人 器 和 万 维 网 其 他 部 分 之 间 的 并 行 Web 代理 。 这 个 实 
验 向 学 生 们 揭示 了 Web 客户 端 和 服务 右 这 样 的 主题 ,并且 把 课程 中 的 许多 概念 联 
系 起 来 ， 比 如 字 节 排序 、 文 件 WO、 进程 控制 、 信 和 号、 信号 处 理 、 内 存 映 射 、 套 接 
字 和 并 发 。 学 生 很 高 兴 能 够 看 到 他 们 的 程序 在 真实 的 Web 浏览 副 和 Web 服务 大 之 
间 起 到 的 作用 。 


CS:APP 的 教师 手册 中 有 对 实验 的 详细 讨论 ， 还 有 关于 下 载 文 持 软件 的 说 明 。 


第 3 版 的 致谢 
很 荣幸 在 此 感谢 那些 帮助 我 们 完成 本 书 第 3 版 的 人 们 。 


我 们 要 感谢 卡 内 基 - 梅 隆 大 学 的 同事 们 ， 他 们 已 经 教授 了 ICS 课程 多 年 ， 并 提供 了 品 
有 见解 的 反馈 意见 ， 给 了 我 们 极 大 的 鼓励 : Guy Blelloch、Roger Dannenberg、David Eck- 
hardt 、Franz Franchetti、Greg Ganger、Seth Goldstein、 Khaled Harras、Greg Kesden、 
Bruce Maggs、Todd Mowry、Andreas Nowatzyk、 Frank Pfenning、Markus Pueschel 和 
Anthony Rowe。David Winters 在 安装 和 配置 参考 Linux 机 器 方面 给 予 了 我 们 很 大 的 帮助 。 


Jason Fritts( 圣 路 易 斯 大 学 ，St. Louis University) 和 Cindy Norris( 阿 帕 拉 契 州立 大 
学 ，Appalachian State) 对 第 2 版 提供 了 细致 周密 的 评论 。 歼 奕 利 (武汉 大 学 ，Wuhan Uni- 
versity) 翻 译 了 中 文 版 ， 并 为 其 维护 勘误 ， 同 时 还 贡献 了 7 一些 错误 报告 。Godmar Back( 弗 
吉 尼 亚 理 工大 学 ，Virginia Tech) 向 我 们 介绍 了 异步 信号 安全 以 及 与 协议 无 关 的 网 络 编程 ， 
帮助 我 们 显著 提升 了 本 书 质 量 。 


非常 感谢 目光 敏锐 的 读者 们 ， 他 们 报告 了 第 2 版 中 的 错误 : Rami Ammari、Paul An- 


agnostopoulos、Lucas Birenfinger、Godmar Back、Ji Bin、Sharbel Bousemaan、Richard 


Callahan、 Seth Chaiken、 Cheng Chen、 Libo Chen、Tao Du、 Pascal Garcia、 Yili Gong、 
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Ronald Greenberg、Dorukhan Giil6z、 Dong Han、Dominik Helm、Ronald Jones、Musta- 
fa Kazdagli、Gordon Kindlmann、Sankar Krishnan、Kanak Kshetri、jJunlin Lu、 Qian- 
gqiang Luo、 Sebastian Luy、 Le Ma、 Ashwin Nanjappa、 Gregoire Paradis、Jonas Pfen- 
ninger、 Karl Pichotta、 David Ramsey、 Kaustabh Roy、 David Selvaral 、Sankar Shan- 
mugam、 Dominique Smulkowska、 Dag Sorbo、 Michael Spear、 Yu Tanaka、Steven Tri- 
canowicz、 Scott Wright、Wakl Wright、 Han Xu, Zhengshan Yan、 Firo Yang、 Shuang 
Yang、 John Ye、Taketo Yoshida、Yan Zhu 和 Michael Zink 。 


还 要 感谢 对 实验 做 出 贡献 的 读者 ， 他 们 是 : Godmar Back( 弗 吉 尼 亚 理 工大 学 ，Vir- 
ginia Tech)、Taymon Beal( 伍 斯 特 理 工学 院 ，Worcester Polytechnic Institute)、Aran 
Clauson( 西 华盛顿 大 学 ，Western Washington University)、Cary Gray ( 威 顿 学 阮 ， 
Wheaton College)、Paul Haiduk (德州 农机 大 学 ，West Texas A&M University)、Len 
Hamey( 麦 考 瑞 大 学 ，Macquarie University)、Eddie Kohler( 哈 佛 大 学 ，Harvard) 、Hugh 
Lauer( 伍 斯 特 理 工学 院 ，Worcester Polytechnic Institute)、Robert Marmorstein( 表 沃 德 大 


学 ，Longwood University) 和 James Riely( 德 保罗 大 学 ，DePaul University)。 


再 次 感谢 Windfall 软件 公司 的 Paul Anagnostopoulos 在 本 书 排版 和 先进 的 制作 过 程 中 
所 做 的 精湛 工作 。 非 常 感谢 Paul 和 他 的 优秀 团队 : Richard Camp (文字 编 辑 )、Jennifer 
McClain( 校 对 )、Laurel Muller( 美 术 制 作 ) 以 及 Ted Laux( 索 引 制作 ) 。Paul 甚至 找 出 了 我 
们 对 缩写 BSS 的 起 源 描述 中 的 一 个 错误 ， 这 个 错误 从 第 1 版 起 一 直 没 有 被 发 现 ! 


最 后 ， 我 们 要 感谢 Prentice Hall 出 版 社 的 朋友 们 。Marcia Horton 和 我 们 的 编辑 Matt 
Goldstein 一 直 坚 定 不 移 地 给 予 我 们 支持 和 喜 励 ， 非 和 常 感谢 他 们 。 


第 2 版 的 致谢 
我 们 深 深 地 感谢 那些 帮助 我 们 写 出 CS: APP 第 2 版 的 人 们 。 


首先 ， 我 们 要 感谢 在 卡 内 基 - 梅 隆 大 学 教授 ICS 课程 的 同事 们 ， 感 谢 你 们 见解 深刻 的 
反馈 意见 和 鼓励 : Guy Blelloch、Roger Dannenberg、David Eckhardt、Greg Ganger、 
Seth Goldstein、 Greg Kesden、 Bruce Maggs、 Todd Mowry、 Andreas Nowatzyk、 Frank 
Pfenning 和 Markus Pueschel。 


还 要 感谢 报告 第 1 版 勘误 的 目光 敏锐 的 读者 们 : Daniel Amelang、Rui Baptista、Quarup 
Barreirinhas、 Michael Bombyk、jJ6rg Brauer、jJordan Brough、Yixin Cao、James Caroll、Rui Car- 
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Hong、 Greg Israelsen、Ronald Jones、Haudy Kazemi、Brian Kell、Constantine Kousoulis、Sacha 
Krakowiak 、 Arun Knshnaswamy、Martin Kulas、Michael Li、Zeyang LI、Ricky Liu、Mario Lo 
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‘Troup 、Martin Vopatek、Alan West、Betsy Wolff、Tim Wong、James Woodru{ff、Scott Wright、 
Jackie Xiao、 Guanpeng Xu、 Qing Xu、 Caren Yang、 Yin Yongsheng、 Wang Yuanxuan、Steven 
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不 明显 但 很 深刻 的 错误 ， 还 要 特别 感谢 Ricky Liu， 他 的 校对 水 平 真 的 很 高 。 
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bons 和 Shimin Chen 跟 我 们 分 享 了 大 量 关 于 固态 硬盘 设计 的 专业 知识 。 
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C H A 已 E R ] 
计算 机 系统 漫 效 
计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 ， 它 们 共同 工作 来 运行 应 用 程序 。 虽 然 系统 的 


具体 实现 方式 随 着 时 间 不 断 变化 ， 但 是 系统 内 在 的 概念 却 没有 改变 。 所 有 计算 机 系统 都 有 
相似 的 硬件 和 软件 组 件 ， 它 们 又 执行 着 相似 的 功能 。 一 些 程序 员 希 望 深 入 了 解 这 些 组 件 是 
如 何 工 作 的 以 及 这 些 组 件 是 如 何 影 响 程 序 的 正确 性 和 性 能 的 ， 以 此 来 提高 自身 的 技能 。 本 
书 便 是 为 这 些 读者 而 写 的 。 

现在 就 要 开始 一 次 有 趣 的 漫游 历程 了 。 如 果 你 全 力 投 身 学 习 本 书 中 的 概念 ， 完 全 理解 底 
层 计算 机 系统 以 及 它 对 应 用 程序 的 影响 ， 那 么 你 会 步 上 成 为 为 数 不 多 的 “大 牛 ” 的 道路 。 

你 将 会 学 习 一 些 实践 技巧 ， 比 如 如 何 避 免 由 计算 机 表示 数字 的 方式 引起 的 奇怪 的 数字 
错误 。 你 将 学 会 怎样 通过 一 些小 窍门 来 优化 自己 的 C 代码 ， 以 充分 利用 现代 处 理 器 和 存储 
器 系统 的 设计 。 你 将 了 解 编译 器 是 如 何 实现 过 程 调 用 的 ， 以 及 如 何 利 用 这 些 知 识 来 避免 组 
冲 区 溢出 错误 带 来 的 安全 漏洞 ， 这 些 弱 点 给 网 络 和 因特网 软件 带 来 了 巨大 的 麻烦 。 你 将 学 
会 如 何 识 别 和 避免 链接 时 那些 令 人 讨厌 的 错误 ， 它 们 困扰 着 普通 的 程序 员 。 你 将 学 会 如 何 
编写 自己 的 Unix shell、 自 己 的 动态 存储 分 配 包 ， 甚 至 于 目 己 的 Web 服务 需 。 你 会 认识 并 发 
带 来 的 希望 和 陷阱 ， 这 个 主题 随 着 单个 芯片 上 集成 了 多 个 处 理 器 核 变 得 越 来 越 重 要 。 

在 Kernighan 和 Ritchie 的 关于 C 编程 语言 的 经 典 教材 L61j 中 ， 他 们 通过 图 1-1 中 所 
示 的 hello 程序 来 向 读者 介绍 C。 尽 管 nello 程序 非常 简单 ， 但 是 为 了 让 它 实现 运行 ， 系 
统 的 每 个 主要 组 成 部 分 都 需要 协调 工作 。 从 某 种 意义 上 来 说 ， 本 书 的 目的 就 是 要 帮助 你 了 
解 当 你 在 系统 上 执行 hello 程序 时 ， 系 统 发 生 了 什么 以 及 为 什么 会 这 样 。 


code/intro/hello.c 
1 #include <stdio.h> 
2 
3 int main() 
4 并 
5 printf("hello, world\n'"); 
6 return 0; 
7 8} 
code/intro/hello.c 


图 1-1 hello 程序 ( 来 源 : [60]) 
我 们 通过 跟踪 hello 程序 的 生命 周期 来 开始 对 系统 的 学 习 一 一 从 它 被 程序 员 创建 开始 ， 


到 在 系统 上 运行 ， 输 出 简单 的 消息 ， 然 后 终止 。 我 们 将 沿 着 这 个 程序 的 生命 周期 ， 人 简要 地 介 
绍 一 些 逐 步 出 现 的 关键 概念 、 专 业 术 语 和 组 成 部 分 。 后 面 的 章 市 将 围绕 这 些 内 容 展 开 。 


1. 1 信息 就 古 位 二 上 下 文 
hello 程序 的 生命 周期 是 从 一 个 源 程序 (或 者 说 源 文件 ) 开 始 的 ， 即 程序 员 通 过 编辑 器 创 


建 并 保存 的 文本 文件 ， 文 件 名 是 hello.c。 源 程序 实际 上 就 是 一 个 由 值 0 和 1 组 成 的 位 (又 称 
为 比特 ) 序 列 ，8 个 位 被 组 织 成 一 组 ， 称 为 字 节 。 每 个 字 节 表示 程序 中 的 某 些 文本 字符 。 
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大 部 分 的 现代 计算 机 系统 都 使 用 ASCII 标准 来 表示 文本 字符 ， 这 种 方式 实际 上 就 是 用 


一 个 唯一 的 单字 节 大 小 的 整数 值 ? 来 表示 每 个 字符 。 


的 ASCII 人 码 表示 。 
## i u 
35 105 417 
h > l n 
104 62 110 


\n P 


10 32 112 


O 
111 


七 


d 
100 


t 
116 


r 
114 


r 
114 


u 


比如 ， 图 1-2 中 给 出 了 hello.c 程序 





116 


图 1-2 


将 在 第 2 章 中 详细 描述 。 


下 天 c 编程 语言 的 起 源 


i147 


hello.c 的 ASCII 文本 表示 


hello.c 程序 是 以 字 节 序列 的 方式 储存 在 文件 中 的 。 每 个 字 节 都 有 一 个 整数 值 ， 对 应 
于 某 些 字符 。 例 如 ， 第 一 个 字 节 的 整数 值 是 35， 它 对 应 的 就 是 字符 “# ”。 第 二 个 字 节 的 
整数 值 为 105， 它 对 应 的 字符 是 “i”， 依 此 类 推 。 注 意 ， 每 个 文本 行 都 是 以 一 个 看 不 见 的 
换行 符 “\n” 来 结束 的 ， 它 所 对 应 的 整数 值 为 10。 像 hello.c 这 样 只 由 ASCII 字符 构成 
的 文件 称 为 文本 文件 ， 所 有 其 他 文件 都 称 为 二 进 制 文件 。 

hello.c 的 表示 方法 说 明了 一 个 基本 思想 系统 中 所 有 的 信息 一 一 包括 磁盘 文件 、 内 
存 中 的 程序 、 内 存 中 存放 的 用 户 数据 以 及 网 络 上 传送 的 数据 ， 都 是 由 一 串 比 特 表示 的 。 区 
分 不 同 数据 对 象 的 唯一 方法 是 我 们 读 到 这 些 数据 对 象 时 的 上 下 文 。 比 如 ， 在 不 同 的 上 下 文 
中 ， 一 个 同样 的 字 节 序列 可 能 表示 一 个 整数 、 浮 点 数 、 字 符 串 或 者 机 天 指 令 。 

作为 程序 员 ， 我 们 需要 了 解数 字 的 机 需 表 示 方 式 ， 因 为 它们 与 实际 的 整数 和 实数 是 不 
同 的 。 它 们 是 对 真 值 的 有 限 近 似 值 ， 有 时 候 会 有 意 想不到 的 行为 表现 。 这 方面 的 基本 原理 


C 语言 是 贝尔 实验 室 的 Dennis Ritchie 于 1969 年 一 1973 年 间 创 建 的 。 美 国 国 家 标准 学 
会 (American National Standards Institute，ANSI) 在 1989 年 颁布 了 ANSIC 的 标准 ， 后 来 C 
语言 的 标准 化 成 了 国际 标准 化 组 织 (International Standards Organization，ISO) 的 责任 。 这 
些 标准 定义 了 CC 语言 和 一 系列 函数 库 ， 即 所 谓 的 C 标准 库 。Kernighan 和 Ritchie 在 他 们 的 
经 典 著作 中 描述 了 ANSI C， 这 本 著作 被 人 们 满怀 感情 地 称 为 “K&R”[61]。 用 Ritchie 的 话 
来 说 L92]，C 语言 是 “古怪 的 、 有 缺陷 的 ， 但 同时 也 是 一 个 巨大 的 成 功 ”。 为 什么 会 成 功 呢 ? 
e C 语言 与 Unix 操作 系统 关系 密切 。C 从 一 开始 就 是 作为 一 种 用 于 Unix 系统 的 程序 
语言 开发 出 来 的 。 大 部 分 Unix 内 核 ( 操 作 系 统 的 核心 部 分 )， 以 及 所 有 支撑 工具 和 
函数 库 都 是 用 C 语言 编写 的 。20 世纪 70 年 代 后 期 到 80 年 代 初 期 ，Unix 风行 于 高 


等 院 校 ， 许 多 人 开始 接触 C 语言 并 喜欢 上 它 。 


因为 Unix 几乎 全 部 是 用 C 〇 编写 的 ， 


它 可 以 很 方便 地 移植 到 新 的 机 器 上 ， 这 种 特点 为 C 和 Unix 赢得 了 更 为 广泛 的 支持 。 


昌 有 其 他 编码 方式 用 于 表示 非 英 语 类 语言 文本 。 具 体 讨论 参见 2. 1. 4 节 的 旁 注 。 
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e C 语言 小 而 简单 。C 语言 的 设计 是 由 一 个 人 而 非 一 个 协会 掌控 的 ， 因 此 这 是 一 个 
简洁 明了 、 没 有 什么 宛 殉 的 设计 。K&&R 这 本 书 用 大 量 的 例子 和 练习 描述 了 完整 
的 C 语 言及 其 标准 库 ， 而 全 书 不 过 261 页 。C 语言 的 简单 使 它 相 对 而 言 易于 学 
习 ， 也 易于 移植 到 不 同 的 计算 机 上 。 

e C 语言 是 为 实践 目的 设计 的 。C 语言 是 设计 用 来 实现 Unix 操作 系统 的 。 后 来 ， 
其 他 人 发 现 能 够 用 这 门 语 言 无 障碍 地 编写 他 们 想 要 的 程序 。 

C 语言 是 系统 级 编程 的 首选 ， 同 时 它 也 非常 适用 于 应 用 级 程序 的 编写 。 然 而 ， 它 也 
并 非 适用 于 所 有 的 程序 员 和 所 有 的 情况 。C 语言 的 指针 是 造成 程序 员 困 总 和 程序 错误 的 
一 个 常见 原因 。 同 时 ，C 语言 还 缺乏 对 非常 有 用 的 抽象 的 显 式 支 持 ， 例 如 类 、 对 象 和 异 
常 。 像 C++ 和 Java 这 样 针 对 应 用 级 程序 的 新 程序 语言 解决 了 这 些 问 题 。 


1.2 程序 被 其 他 程序 翻译 成 不 同 的 格式 


hello 程序 的 生命 周期 是 从 一 个 高 级 C 语言 程序 开始 的 ， 因 为 这 种 形式 能 够 被 人 读 
懂 。 然 而 ， 为 了 在 系统 上 运行 hello.c 程序 ， 每 条 C 语句 都 必须 被 其 他 程序 转化 为 一 系 
列 的 低级 机 器 语言 指令 。 然 后 这 些 指 令 按 照 一 种 称 为 可 执行 目标 程序 的 格式 打 好 包 ， 并 以 
二 进 制 磁盘 文件 的 形式 存放 起 来 。 目 标 程序 也 称 为 可 执行 目标 文件 。 

在 Unix 系统 上 ， 从 源 文件 到 目标 文件 的 转化 是 由 编译 器 驱动 程序 完成 的 : 


linux> gcc -0 hello hello.c 


在 这 里 ，GCC 编译 器 驱动 程序 读 取 源 程序 文件 hello.c， 并 把 它 翻 译 成 一 个 可 执行 
目标 文件 hello。 这 个 翻译 过 程 可 分 为 四 个 阶段 完成 ， 如 图 1-3 所 示 。 执 行 这 四 个 阶段 的 
程序 ( 预 处 理 器 、 编 译 器 、 汇 编 器 和 和 链接 器 ) 一 起 构成 了 编译 系统 (compilation system)。 


printf.o 





| 可 重 定位 
(文本 ) | 源 程序 。 - (文本 ) 目标 程序 目标 程序 
(文本 ) (二 进 制 ) (二 进 制 ) 


图 1-3 编译 系统 


e@ 预 处 理 阶段 。 预 处 理 右 (cpp) 根 据 以 字符 # 开 头 的 命令 ,修改 原 始 的 C 程序 。 比 如 
hello.c 中 第 1 行 的 #include < stdio.h> 命令 告诉 预 处 理 器 读 取 系统 头 文 件 
stdio.h 的 内 容 ， 并 把 它 直 接 插 入 程序 文本 中 。 结 果 就 得 到 了 男 一 个 C 程序 ， 通常 
是 以 .i 作为 文件 扩展 名 。 

编译 阶段 。 编 译 器 (ccl) 将 文本 文件 hello.i 翻译 成 文本 文件 hello.s， 它 包含 一 
个 汇编 语言 程序 。 该 程序 包含 图 数 main 的 定义 ， 如 下 所 示 : 


main: 









] 

2 subq $8, %rsp 

3 movl $.LCO, %edi 
4 call puts 

5 mov]l $0, peax 

6 addq $8, hrsp 

7 ret 


定义 中 2~7 行 的 每 条 语句 都 以 一 种 文本 格式 描述 了 一 条 低级 机 颖 语言 指令 。 
汇编 语言 是 非常 有 用 的 ， 因 为 它 为 不 同 高 级 语言 的 不 同 编译 右 提 供 了 通用 的 输出 语 
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言 。 例 如 ，C 编译 句 和 Fortran 编译 需 产 生 的 输出 文件 用 的 都 是 一 样 的 汇编 语言 。 
汇编 阶段 。 接 下 来 ， 汇 编 器 (as) 将 hello.s 翻译 成 机 器 语言 指令 ， 把 这 些 指 令 打 包 成 
一 种 叫做 可 重 定 位 目标 程序 (relocatable object program) 的 格式 ， 并 将 结果 保存 在 目标 
文件 hello.o 中 。hello.o 文 件 是 一 个 二 进 制 文件 ， 它 包含 的 17 个 字 节 是 函数 main 
的 指令 编码 。 如 果 我 们 在 文本 编辑 器 中 打开 hello.o 文 件 ， 将 看 到 一 堆 乱 码 。 

链接 阶段 。 请 注意 ，hello 程序 调用 了 printf 函数 ， 它 是 每 个 C 编译 需 都 提供 的 
标准 C 库 中 的 一 个 图 数 。printf 困 数 存在 于 一 个 名 为 printf.o 的 单独 的 预 编译 
好 了 的 目标 文件 中 ， 而 这 个 文件 必须 以 某 种 方式 合并 到 我 们 的 hello.o 程序 中 。 链 
接 器 (ld) 就 负责 处 理 这 种 合并 。 结 果 就 得 到 hello 文件 ， 它 是 一 个 可 执行 目标 文件 
(或 者 简称 为 可 执行 文件 )， 可 以 被 加 载 到 内 存 中 ， 由 系统 执行 。 


EE GNU 项 目 

GCC 是 GNU(GNU 是 GNU’s Not Unix 的 缩写 ) 项 目 开发 出 来 的 众多 有 用 工具 之 
一 。GNU 项 目 是 1984 年 由 Richard Stallman 发 起 的 一 个 免税 的 问 善 项 目 。 该 项 目的 目 
标 非常 宏大 ， 就 是 开发 出 一 个 完整 的 类 Unix 的 系统 ， 其 源 代 码 能 够 不 受 限制 地 被 修改 
和 传播 。GNU 项目 已 经 开发 出 了 一 个 包含 Unix 操作 系统 的 所 有 主要 部 件 的 环境 ， 但 内 
核 除外 ， 内 核 是 由 Linux 项 目 独立 发 展 而 来 的 。GNU 环境 包括 EMACS 编辑 器 、GCC 
编译 器 、GDB 调试 器 、 汇 编 器 、 链 接 器 、 处 理 二 进 制 文件 的 工具 以 及 其 他 一 些 部 件 。 
GCC 编译 器 已 经 发 展 到 支持 许多 不 同 的 语言 ， 能 够 为 许多 不 同 的 机 器 生成 代码 。 支 持 
的 语言 包括 C、C++ 、Fortran、jJava、Pascal、 面 向 对 象 C 语 言 (Objective-C) 和 Ada。 

GNU 项 目 取得 了 非凡 的 成 绩 ， 但 是 却 常 常 被 忽略 。 现 代 开 放 源 码 运动 ( 通 第 和 
Linux 联系 在 一 起 ) 的 思想 起 源 是 GNU 项 目 中 自由 软件 (free software) 的 概念 。( 此 处 的 free 
为 自由 言论 (free speech) 中 的 “自由 ”之 意 ， 而 非 免费 啤酒 (free beer) 中 的 “免费 ”之 意 。) 而 
且 ，Linux 如 此 受 欢迎 在 很 大 程度 上 还 要 归功 于 GNU 工具， 它们 给 Linux 内 核 提 供 了 环境 。 


1.3 了 解 编译 系统 如 何 工 作 是 大 有 和 获 处 的 


对 于 像 hello.c 这 样 简 单 的 程序 ， 我 们 可 以 依靠 编译 系统 生成 正确 有 效 的 机 需 代 码 。 
但 是 ， 有 一 些 重要 的 原因 促使 程序 员 必 须知 道 编 译 系统 是 如 何 工 作 的 。 


e@ 优化 程序 性 能 。 现 代 编 译 器 都 是 成 熟 的 工具 ， 通 常 可 以 生成 很 好 的 代码 。 作 为 程序 
员 ， 我 们 无 须 为 了 写 出 高 效 代码 而 去 了 解 编译 器 的 内 部 工作 。 但 是 ， 为 了 在 C 程序 中 
做 出 好 的 编码 选择 ， 我 们 确实 需要 了 解 一 些 机 器 代码 以 及 编译 器 将 不 同 的 C 语句 转化 
为 机 器 代码 的 方式 。 比 如 ， 一 个 switch 语句 是 否 总 是 比 一 系列 的 if=-else 语句 高 效 
得 多 ? 一 个 函数 调用 的 开销 有 多 大 ? while 循环 比 for 循环 更 有 效 吗 ? 指针 引用 比 数 
组 索引 更 有 效 吗 ? 为 什么 将 循环 求 和 的 结果 放 到 一 个 本 地 变量 中 ,会 比 将 其 放 到 一 个 
通过 引用 传递 过 来 的 参数 中 ， 运 行 起 来 快 很 多 呢 ?” 为 什么 我 们 只 是 简单 地 重新 排列 一 
下 算术 表达 式 中 的 括号 就 能 让 函数 运行 得 更 快 ? 

在 第 3 章 中 ， 我 们 将 介绍 x86-64， 最 近 几 代 Linux、Macintosh 和 Windows 计算 机 的 
机 器 语言 。 我 们 会 讲述 编译 器 是 怎样 把 不 同 的 C 语言 结构 翻译 成 这 种 机 器 语言 的 。 在 第 
5 章 中 ， 你 将 学 习 如 何 通过 简单 转换 C 语言 代码 ， 和 帮助 编译 器 更 好 地 完成 工作 ， 从 而 调 
整 C 程序 的 性 能 。. 在 第 6 章 中 ， 你 将 学 习 存储 器 系统 的 层次 结构 特性 ，C 语言 编译 项 如 
何 将 数组 存放 在 内 存 中 ， 以 及 C 程序 又 是 如 何 能 够 利用 这 些 知 识 从 而 更 高 效 地 运行 。 
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9 理解 链接 时 出 现 的 错误 。 根 据 我 们 的 经 验 ， 一 些 最 令 人 困扰 的 程序 错误 往往 都 与 链 
接 器 操作 有 关 ， 尤 其 是 当 你 试图 构建 大 型 的 软件 系统 时 。 比 如 ， 链 接 器 报告 说 它 无 
法 解析 一 个 引用 ， 这 是 什么 意思 ? 静态 变量 和 全 局 变量 的 区 别 是 什么 ”如 果 你 在 不 
同 的 C 文件 中 定义 了 名 字 相 同 的 两 个 全 局 变量 会 发 生 什 么 ? 静态 库 和 动态 库 的 区 别 
是 什么 ? 我 们 在 命令 行 上 排列 库 的 顺序 有 什么 影响 ? 最 严重 的 是 ， 为 什么 有 些 链接 
错误 直到 运行 时 才 会 出 现 ? 在 第 7 章 中 ， 你 将 得 到 这 些 问题 的 答案 。 

9 避免 安全 漏洞 。 多 年 来 ,缓冲 区 溢出 错误 是 造成 大 多 数 网 络 和 Internet 服务 器 上 安 
全 漏洞 的 主要 原因 。 存 在 这 些 错误 是 因为 很 少 有 程序 员 能 够 理解 需要 限制 从 不 受信 
任 的 源 接收 数据 的 数量 和 格式 。 学 习 安 全 编程 的 第 一 步 就 是 理解 数据 和 控制 信息 存 
储 在 程序 栈 上 的 方式 会 引起 的 后 果 。 作 为 学 习 汇 编 语 言 的 一 部 分 ， 我 们 将 在 第 3 章 
中 描述 堆栈 原理 和 缓冲 区 溢出 错误 。 我 们 还 将 学 习 程 序 员 、 编 译 右 和 操作 系统 可 以 
用 来 降低 攻击 威胁 的 方法 。 


1. 4 处理 器 读 并 解释 储存 在 内 存 中 的 指令 


此 刻 ，hello.c 源 程序 已 经 被 编译 系统 翻译 成 了 可 执行 目标 文件 hello， 并 被 存放 在 
磁盘 上 。 要 想 在 Unix 系统 上 运行 该 可 执行 文件 ， 我 们 将 它 的 文件 名 输入 到 称 为 shell 的 应 
用 程序 中 : 

linux> ./hello 

hello, world 

linux> 

shell 是 一 个 命令 行 解释 器 ， 它 输出 一 个 提示 符 ， 等 待 输入 一 个 命令 行 ， 然 后 执行 这 
个 命令 。 如 果 该 命令 行 的 第 一 个 单词 不 是 一 个 内 置 的 shell 命令 ， 那 么 shell 就 会 假设 这 是 
一 个 可 执行 文件 的 名 字 ， 它 将 加 载 并 运行 这 个 文件 。 所 以 在 此 例 中 ，shell 将 加 载 并 运行 
hello 程序 ， 然 后 等 待 程序 终止 。hello 程序 在 屏幕 上 输出 它 的 消息 ， 然 后 终止 。shell 
随后 输出 一 个 提示 符 ， 等 待 下 一 个 输入 的 命令 行 。 


1.4.1 系统 的 硬件 组 成 


为 了 理解 运行 hello 程序 时 发 生 了 什么 ， 我 们 需要 了 解 一 个 典型 系统 的 硬件 组 织 ， 如 
图 1-4 所 示 。 这 张 图 是 近期 Intel 系统 产品 族 的 模型 ， 但 是 所 有 其 他 系统 也 有 相同 的 外 观 
和 特性 。 现 在 不 要 担心 这 张 图 很 复杂 一 一 我 们 将 在 本 书 分 阶段 对 其 进行 详尽 的 介绍 。 

1. 总 线 

贯穿 整个 系统 的 是 一 组 电子 管道 ， 称 作 总 线 ， 它 携带 信息 字 节 并 负责 在 各 个 部 件 间 传 
递 。 通 常 总 线 被 设计 成 传送 定 长 的 字 节 块 ， 也 就 是 字 (word) 。 字 中 的 字 节 数 ( 即 字 长 ) 是 一 
个 基本 的 系统 参数 ， 各 个 系统 中 都 不 尽 相 同 。 现 在 的 大 多 数 机 器 字 长 要 么 是 4 个 字 节 (32 
位 )， 要 么 是 8 个 字 节 (64 位 )。 本 书 中 ， 我 们 不 对 字 长 做 任何 固定 的 假设 。 相 反 ， 我 们 将 
在 需要 明确 定义 的 上 下 文中 具体 说 明 一 个 “ 字 ” 是 多 大 。 

2. IMMO 设备 

IMO( 输 入 /输出 ) 设 备 是 系统 与 外 部 世界 的 联系 通道 。 我 们 的 示例 系统 包括 四 个 IO 设 
备 : 作为 用 户 输入 的 键盘 和 上 鼠标， 作为 用 户 输 出 的 显示 器 ， 以 及 用 于 长 期 存储 数据 和 程序 
的 磁盘 驱动 右 ( 人 简单 地 说 就 是 磁盘 )。 最 开始 ， 可 执行 程序 hello 就 存放 在 磁盘 上 。 

每 个 1/0 设备 都 通过 一 个 控制 器 或 适配器 与 1/O 总线 相连 。 控 制 器 和 适配器 之 间 的 区 
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别 主 要 在 于 它们 的 封装 方式 。 控 制 器 是 IO 设备 本 身 或 者 系统 的 主 印 制 电 路 板 ( 通 常 称 作 
主板 ) 上 的 芯片 组 。 而 适 配 磊 则 是 一 块 播 在 主板 搬 槽 上 的 卡 。 无 论 如 何 ， 它 们 的 功能 都 是 
在 MO 总 线 和 I/O 设备 之 间 传 递 信 息 。 


CPU 





鼠标 ”键盘 ”显示 器 | 存储 在 磁盘 上 的 hello 
可 执行 文件 


图 1-4 一 个 典型 系统 的 硬件 组 成 
CPU: 中 央 处 理 单元 ; ALU:， 算术 /逻辑 单元 ; PC: 程序 计数 器 ; USB: 通用 串 行 总 线 

第 6 章 会 更 多 地 说 明 磁 盘 之 类 的 MO 设备 是 如 何 工作 的 。 在 第 10 章 中 ， 你 将 学 习 如 
何在 应 用 程序 中 利用 Unix I/O 接口 访问 设备 。 我 们 将 特别 关注 网 络 类 设备 ， 不 过 这 些 技 
术 对 于 其 他 设备 来 说 也 是 通用 的 。 

3. 主 存 

主 存 是 一 个 临时 存储 设备 ， 在 处 理 器 执行 程序 时 ， 用 来 存放 程序 和 程序 处 理 的 数据 。 从 
物理 上 来 说 ， 主 存 是 由 一 组 动态 随机 存 取 存储 器 (DRAMD) 芯 片 组 成 的 。 从 逻辑 上 来 说 ， 存 储 
古 是 一 个 线性 的 宇 节 数组 ， 每 个 字 节 都 有 其 唯一 的 地 址 (数组 索引 )， 这 些 地 址 是 从 零 开 始 
的 。 一 般 来 说 ， 组 成 程序 的 每 条 机 器 指令 都 由 不 同 数量 的 字 节 构成 。 与 C 程序 变量 相对 应 的 
数据 项 的 大 小 是 根据 类 型 变化 的 。 比 如 ， 在 运行 Linux 的 x86-64 机 需 上 ，short 类 型 的 数据 
需要 2 个 字 节 ，int 和 float 类 型 需要 4 个 字 节 ， 而 long 和 double 类 型 需要 8 个 字 节 。 

第 6 章 将 具体 介绍 存储 器 技术 ， 比 如 DRAM 芯片 是 如 何 工作 的 ， 它们 又 是 如 何 组 合 
起 来 构成 主 存 的 。 

4. 处 理 器 

中 央 处 理 单 元 (CPU)， 人 简称 处 理 器 ， 是 解释 (或 执行 ) 存 储 在 主 存 中 指令 的 引擎 。 处 理 
器 的 核心 是 一 个 大 小 为 一 个 字 的 存储 设备 (或 寄存 器 )， 称 为 程序 计数 器 (PC)。 在 任何 时 
刻 ，PC 都 指向 主 存 中 的 某 条 机 器 语言 指令 ( 即 含 有 该 条 指令 的 地 址 ) 。° 

从 系统 通电 开始 ， 直 到 系统 断 电 ， 处 理 器 一 直 在 不 断 地 执行 程序 计数 器 指向 的 指令 ， 
再 更 新 程序 计数 器 ， 使 其 指向 下 一 条 指令 。 处 理 句 看 上 去 是 按照 一 个 非常 简单 的 指令 执行 
模型 来 操作 的 ， 这 个 模型 是 由 指令 集 架构 决定 的 。 在 这 个 模型 中 ， 指 令 按 照 严格 的 顺序 执 
行 ， 而 执行 一 条 指令 包含 执行 一 系列 的 步 又。 处 理 器 从 程序 计数 器 指向 的 内 存 处 读 取 指 


加 PC 也 普遍 地 被 用 来 作为 “个 人 计算 机 ”的 缩写 。 然 而 ， 两 者 之 间 的 区 别 应 该 可 以 很 清楚 地 从 上 下 文中 看 出 来 。 
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令 ， 解 释 指令 中 的 位 ， 执 行 该 指令 指示 的 简单 操作 ， 然 后 更 新 PC， 使 其 指向 下 一 条 指令 ， 
而 这 条 指令 并 不 一 定 和 在 内 存 中 刚刚 执行 的 指令 相 邻 。 
这 样 的 简单 操作 并 不 多 ， 它 们 围绕 着 主 存 、 寄 存 器 文件 (register file) 和 算术 /逻辑 单 
元 (ALU) 进 行 。 寄 存 器 文件 是 一 个 小 的 存储 设备 ， 由 一 些 单个 字 长 的 寄存 器 组 成 ， 每 个 
寄存 器 都 有 唯一 的 名 字 。ALU 计算 新 的 数据 和 地 址 值 。 下 面 是 一 些 简单 操作 的 例子 ， 
CPU 在 指令 的 要 求 下 可 能 会 执行 这 些 操作 。 
e@ 加 载 : 从 主 存 复制 一 个 字 节 或 者 一 个 字 到 寄存 器 ， 以 覆盖 寄存 器 原来 的 内 容 。 
e@ 存储 : 从 寄存 器 复制 一 个 字 节 或 者 一 个 字 到 主 存 的 某 个 位 置 ， 以 覆盖 这 个 位 置 上 原 
来 的 内 容 。 
e@ 操作 : 把 两 个 寄存 器 的 内 容 复制 到 ALU，ALU 对 这 两 个 字 做 算术 运算 ， 并 将 结果 
存放 到 一 个 寄存 器 中 ， 以 履 盖 该 寄存 器 中 原来 的 内 容 。 
e 跳 转 : 从 指令 本 和 喘 中 抽取 一 个 字 ， 并 将 这 个 字 复 制 到 程序 计数 器 (PC) 中 ， 以 覆盖 
PC 中 原来 的 值 。 
处 理 器 看 上 去 是 它 的 指令 集 架构 的 简单 实现 ， 但 是 实际 上 现代 处 理 絮 使 用 了 非常 复 灯 
的 机 制 来 加 速 程序 的 执行 。 因 此 ， 我 们 将 处 理 右 的 指令 集 架 构 和 处 理 右 的 微 体 系 结构 区 分 
开 来 : 指令 集 架 构 描 述 的 是 每 条 机 器 代码 指令 的 效果 ; 而 微 体 系 结构 描述 的 是 处 理 器 实际 
上 是 如 何 实现 的 。 在 第 3 章 研 究 机 器 代码 时 ， 我 们 考虑 的 是 机 屁 的 指令 集 架 构 所 提供 的 抽 
象 性 。 第 4 章 将 更 详细 地 介绍 处 理 器 实际 上 是 如 何 实现 的 。 第 5 章 用 一 个 模型 说 明 现 代 处 
理 器 是 如 何 工 作 的 ， 从 而 能 预测 和 优化 机 器 语言 程序 的 性 能 。 


1.4.2 运行 hello 程序 


前 面 简单 描述 了 系统 的 硬件 组 成 和 操作 ， 现 在 开始 介绍 当 我 们 运行 示例 程序 时 到 底 发 
生 了 些 什 么 。 在 这 里 必须 省 略 很 多 细节 ， 稍 后 会 做 补充 ， 但 是 现在 我 们 将 很 满意 于 这 种 整 
体 上 的 描述 。 

初始 时 ，shell 程序 执行 它 的 指令 ， 等 待 我 们 输入 一 个 命令 。 当 我 们 在 键盘 上 输入 字符 串 
“./hello” 后 ，shell 程序 将 字符 逐一 读 人 寄存 器 ， 再 把 它 存 放 到 内 存 中 ， 如 图 1-5 所 示 。 


CPU 






内 存 总 线 


| 主 存储 器 | “。?° 


< 7 A et 
mm 
# 5 扩展 槽 ， 留 待 
上 入 | | 图 形 适 配器 磁盘 控制 器 | 关 的 设 全 全 下 
鼠标 键盘 显示 器 一 ~ 


用 户 输入 


hello 
图 1-5 从 键盘 上 读 取 hello 命令 
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当 我 们 在 键盘 上 项 回 车 键 时 ，shell 程序 就 知道 我 们 已 经 结束 了 命令 的 输入 。 然 后 
shell 执行 一 系列 指令 来 加 载 可 执行 的 hello 文件 ， 这 些 指令 将 hello 目标 文件 中 的 代码 
和 数据 从 磁盘 复制 到 主 存 。 数 据 包括 最 终 会 被 输出 的 字符 串 “hello，worldNn?”。 

利用 直接 存储 器 存 取 (DMA， 将 在 第 6 章 中 讨论 ) 技 术 ， 数 据 可 以 不 通过 处 理 器 而 直 
接 从 磁盘 到 达 主 存 。 这 个 步骤 如 图 1-6 所 示 。 


CPU 






系统 总 线 内 存 总 线 


《全 Ta Wm 下 和 主 存储 器 hello, world\n 
ok hello 代码 
明 Iog 线 是 (Hh es 









: . 所 
USB 图 形 ry 
Re 类 的 设备 使 用 
鼠标 ”键盘 显示 器 “了 存储 在 磁盘 上 的 hello 
磁盘 | 可 执行 文件 





和 外 1 从 磁盘 加 载 可 执行 文件 到 主 存 


一 旦 目标 文件 hello 中 的 代码 和 数据 被 加 载 到 主 存 ， 处 理 器 就 开始 执行 hello 程序 
的 main 程序 中 的 机 器 语言 指令 。 这 些 指 令 将 “hello，worldN\n” 字 符 串 中 的 字 节 从 主 存 
复制 到 寄存 器 文件 ， 再 从 寄存 器 文件 中 复制 到 显示 设备 ， 最 终 显 示 在 屏幕 上 。 这 个 步骤 如 
图 1-7 所 示 。 


CPU 







内 存 总 线 


“hello, world\n” 
主 存储 器 


扩展 槽 ， 留 竺 
网 络 适 配器 一 
类 的 设备 使 用 












USB 图 形 
控制 需 ”适配器 


鼠标 ”键盘 显示 髓 


“hello, world\n” 磁盘 存储 在 磁盘 上 的 hello 


可 执行 文件 
图 1-7 将 输出 字符 串 从 存储 器 写 到 显示 器 
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1.5 高速 缓 存 至 关 重 要 

这 个 简单 的 示例 揭示 了 一 个 重要 的 问题 ， 即 系统 花费 了 大 量 的 时 间 把 信息 从 一 个 地 方 
挪 到 另 一 个 地 方 。hello 程序 的 机 器 指令 最 初 是 存放 在 磁盘 上 ， 当 程序 加 载 时 ， 它 们 被 复 
制 到 主 存 ; 当 处 理 需 运行 程序 时 ， 指 令 又 从 主 存 复制 到 处 理 器 。 相 似 地 ， 数 据 串 “hel- 
1o，world/n” 开 始 时 在 磁盘 上 ， 然 后 被 复制 到 主 存 ， 最 后 从 主 存 上 复制 到 显示 设备 。 从 
程序 员 的 角度 来 看 ， 这 些 复制 就 是 开销 ， 减 慢 了 程序 “真正 ”的 工作 。 因 此 ， 系 统 设计 者 
的 一 个 主要 目标 就 是 使 这 些 复制 操作 尽 可 能 快 地 完成 。 

根据 机 械 原理 ， 较 大 的 存储 设备 要 比较 小 的 存储 设备 运行 得 慢 ， 而 快速 设备 的 造价 远 高 
于 同类 的 低速 设备 。 比 如 说 ， 一 个 典型 系统 上 的 磁盘 驱动 器 可 能 比 主 存 大 1000 倍 ， 但 是 对 
处 理 器 而 言 ， 从 磁盘 驱动 器 上 读 取 一 个 字 的 时 间 开 销 要 比 从 主 存 中 读 取 的 开销 大 1000 万 倍 。 

类 似 地 ， 一 个 典型 的 寄存 器 文件 只 存储 几 百 字 节 的 信息 ， 而 主 存 里 可 存放 几 十 亿 字 
节 。 然 而 ， 处 理 器 从 寄存 器 文件 中 读数 据 比 从 主 存 中 读 取 几乎 要 快 100 信 。 更 麻烦 的 是 ， 
随 着 这 些 年 半导体 技术 的 进步 ， 这 种 处 理 器 与 主 存 之 间 的 差距 还 在 持续 增 大 。 加 快 处 理 需 
的 运行 速度 比 加 快 主 存 的 运行 速度 要 容易 和 便宜 得 多 。 

针对 这 种 处 理 器 与 主 存 之 间 的 差异 ， 系 统 设计 者 采用 了 更 小 更 快 的 存储 设备 ， 称 为 高 
速 缓存 存储 器 (cache memory， 人 简称 为 cache 或 高 速 缓存 )， 作 为 暂时 的 集结 区 域 ， 存放 处 
理 器 近期 可 能 会 需要 的 信息 。 图 1-8 展示 了 一 个 典型 系统 中 的 高 速 缓存 存储 船 。 位 于 处 理 
器 芯片 上 的 L1 高 速 缓存 的 容量 可 以 达到 数 万 字 节 ， 访 问 速度 几 乎 和 访问 寄存 器 文件 一 样 
快 。 一 个 容量 为 数 十 万 到 数 百 万 字 节 的 更 大 的 L2 高 速 缓存 通过 一 条 特殊 的 总 线 连接 到 处 
理 器 。 进 程 访问 L2 高 速 缓存 的 时 间 要 比 访问 Ll 高 速 缓存 的 时 间 长 5 倍 ， 但 是 这 仍然 比 访 
问 主 存 的 时 间 快 5 一 10 倍 。L1 和 L2 高 速 缓存 是 用 一 种 叫做 静态 随机 访问 存储 器 (SRAM) 
的 硬件 技术 实现 的 。 比 较 新 的 、 处 理 能 力 更 强大 的 系统 甚至 有 三 级 高 速 缓存 : L1、L2 和 
L3。 系 统 可 以 获得 一 个 很 大 的 存储 器 ， 同 时 访问 速度 也 很 快 ， 原 因 是 利用 了 高 速 缓存 的 局 
部 性 原理 ， 即 程序 具有 访问 局 部 区 域 里 的 数据 和 代码 的 趋势 。 通 过 让 高 速 缓 存 里 存放 可 能 
经 常 访问 的 数据 ， 大 部 分 的 内 存 操 作 都 能 在 快速 的 高 速 缓存 中 完成 。 


CPU 芯片 






寄存 器 文件 


系统 总 线 内 存 总 线 


图 1-5 高 速 缓存 存储 器 


本 书 得 出 的 重要 结论 之 一 就 是 ， 意 识 到 高 速 缓存 存储 器 存在 的 应 用 程序 员 能 够 利用 高 速 组 
存 将 程序 的 性 能 提高 一 个 数量 级 。 你 将 在 第 6 章 里 学 习 这 些 重要 的 设备 以 及 如 何 利 用 它们 。 
1.6 存储 设备 形成 层次 结构 


在 处 理 器 和 一 个 较 大 较 慢 的 设备 (例如 主 存 ) 之 间 插 入 一 个 更 小 更 快 的 存储 设备 (例如 
高 速 缓存 ) 的 想法 已 经 成 为 一 个 普遍 的 观念 。 实 际 上 ， 每 个 计算 机 系统 中 的 存储 设备 都 被 
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组 织 成 了 一 个 存储 器 层次 结构 ， 如 图 1-9 所 示 。 在 这 个 层次 结构 中 ， 从 上 至 下 ,设备 的 访 
问 速度 越 来 越 慢 、 容 量 越 来 越 大 ， 并 且 每 字 节 的 造价 也 越 来 越 便宜 。 寄 存 器 文件 在 层次 结 
构 中 位 于 最 项 部 ， 也 就 是 第 0 级 或 记 为 L0。 这 里 我 们 展示 的 是 三 层 高 速 缓存 Ll 到 L3， 
占据 存储 器 层次 结构 的 第 1 层 到 第 3 层 。 主 存在 第 4 层 ， 以 此 类 推 。 







更 小 CPU 寄 存 器 保存 来 自 高 速 缓 存 
地 天 存储 器 的 字 
( 每 字 节 ) ee 
更 贵 的 [2 高 速 缓存 的 高 速 缓存 行 
存储 设备 (SRAM ) L2 高 速 缓存 保存 取 自 L3 高 速 缓存 
的 高 速 缓存 行 


L.3: L3 高 速 缓存 
MRANE) L3 高 速 缓存 保存 取 自 主 存 
更 大 本 让 得 的 高 速 缓存 行 
更 慢 ( DRAM ) 
(每 字 节 ) 


主 存 保存 取 目 本 地 磁盘 
的 磁盘 块 









村 人 L5: 本 地 二 级 存储 
(本 地 磁盘 ) 本 地 磁盘 保存 取 自 远程 网 络 
存储 设备 服务 器 上 磁盘 的 文件 
L6: 远程 二 级 存储 
(分 布 式 文件 系统 ，Web 服 务 器 ) 
图 1-9 一 个 存储 器 层次 结构 的 示例 


存储 髓 层次 结构 的 主要 思想 是 上 一 层 的 存储 器 作为 低 一 层 存储 器 的 高 速 缓存 。 因 此 ， 
寄存 妖 文 件 就 是 Ll 的 高 速 缓存 ，L1 是 L2 的 高 速 绥 存 ，L2 是 L3 的 高 速 缓 存 ，L3 是 主 存 
的 高 速 缓存 ， 而 主 存 又 是 磁盘 的 高 速 缓 存 。 在 某 些 具有 分 布 式 文件 系统 的 网 络 系统 中 ， 本 
地 磁盘 就 是 存储 在 其 他 系统 中 磁盘 上 的 数据 的 高 速 缓存 。 

正如 可 以 运用 不 同 的 高 速 缓 存 的 知识 来 提高 程序 性 能 一 样 ， 程 序 员 同 样 可 以 利用 对 整 
个 存储 器 层次 结构 的 理解 来 提高 程序 性 能 。 第 6 章 将 更 详细 地 讨论 这 个 问题 。 


1. 7 操作 系统 管理 硬件 
让 我 们 回 到 hello 程序 的 例子 。 当 shell 加 载 和 运行 hello 程序 时 ， 以 及 hello 程序 输 


eben eth epee 
直接 访问 键盘 、 显 示 器 、 磁 盘 或 者 主 存 。 取 而 







代 之 的 是 ， 它 们 依靠 操作 系统 提供 的 服务 。 我 
们 可 以 把 操作 系统 看 成 是 应 用 程序 和 硬件 之 间 
插入 的 一 层 软 件 ， 如 图 1-10 所 示 。 所 有 应 用 鲁 10 计算 机 系统 的 分 层 视图 
程序 对 硬件 的 操作 尝试 都 必须 通过 操作 系统 。 进程 
操作 系统 有 两 个 基本 功能 : (1) 防 止 硬 | i | 


| 
件 被 失控 的 应 用 程序 小 用 ; (2) 向 应 用 程序 “| IE 
提供 简单 一 致 的 机 制 来 控制 复杂 而 又 通常 大 | s 文件 | 


不 相同 的 低级 硬件 设备 。 操 作 系 统 通过 几 个 | 一 一 一 一 
基本 的 抽象 概念 (进程 、 虚 拟 内 存 和 文件 ) 来 


实现 这 两 个 功能 。 如 图 1-11 所 示 ， 文 件 是 对 图 1-11 操作 系统 提供 的 抽象 表示 
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IO 设备 的 抽象 表示 ， 虚 拟 内 存 是 对 主 存 和 磁盘 IO 设备 的 抽象 表示 ， 进 程 则 是 对 处 理 
器 、 主 存 和 1I/O 设备 的 抽象 表示 。 我 们 将 依次 讨论 每 种 抽象 表示 。 


EE Unx、Posix 和 标准 Un 观 范 

20 世纪 60 年 代 是 大 型 、 复 杂 操 作 系 统 盛 行 的 年 代 ， 比 如 IBM 的 OS/360 和 Honey- 
well 的 Multics 系统 。OS/360 是 历史 上 最 成 功 的 软件 项 目 之 一 ， 而 Multics 虽然 持续 存 
在 了 多 年 ， 却 从 来 没有 被 广泛 应 用 过 。 贝 尔 实验 室 曾 经 是 Multics 项 目的 最 初 参与 者 ， 
但 是 因为 考虑 到 该 项 目的 复杂 性 和 缺乏 进展 而 于 1969 年 退出 。 鉴 于 Mutics 项 目 不 愉快 
的 经 历 ， 一 群 贝尔 实验 室 的 研究 人 员 Ken Thompson、 Dennis Ritchie、Doug Mcll- 
roy 和 Joe Ossanna， 从 1969 年 开始 在 DEC PDP-7 计算 机 上 完全 用 机 器 语言 编写 了 一 个 
简单 得 多 的 操作 系统 。 这 个 新 系统 中 的 很 多 思想 ， 比 如 层次 文件 系统 、 作 为 用 户 级 进程 
的 shell 概念 ， 都 是 来 自 于 Multics， 只 不 过 在 一 个 更 小 、 更 简单 的 程序 包 里 实现 。1970 
年 ，Brian Kernighan 给 新 系统 命名 为 “Unix”， 这 也 是 一 个 双关 语 ， 瞳 指 “Mnultics” 的 
复杂 性 。1973 年 用 C 重新 编写 其 内 核 ，1974 年 ，Unix 开始 正式 对 外 发 布 [93]。 

贝尔 实验 室 以 慷慨 的 条 件 向 学 校 提 供 源 代码 ， 所 以 Unix 在 大 专 院 校 里 获得 了 很 多 
支持 并 得 以 持续 发 展 。 最 有 影响 的 工作 发 生 在 20 世纪 70 年 代 晚 期 到 80 年 代 早 期 ， 在 
美国 加 州 大 学 伯克利 分 校 ， 研 究 人 员 在 一 系列 发 布 版 本 中 增加 了 虚拟 内 存 和 Internet 协 
议 ， 称 为 Unix 4. xBSD(Berkeley Software Distribution)。 与 此 同时 ， 贝 尔 实 验 室 也 在 
发 布 自己 的 版 本 ， 称 为 System V Unix。 其 他 厂商 的 版 本 ， 比 如 Sun Microsystems 的 
Solaris 系统 ， 则 是 从 这 些 原 始 的 BSD 和 System V 版 本 中 衍生 而 来 。 

20 世纪 80 年 代 中 期 ，Unix 厂商 试图 通过 加 入 新 的 、 往 往 不 兼容 的 特性 来 使 它们 的 
程序 与 众 不 同 ， 麻 烦 也 就 随 之 而 来 了 。 为 了 阻止 这 种 趋势 ，IEEE( 电 气 和 电子 工程 师 协 
会 ) 开 始 努力 标准 化 Unix 的 开发 ， 后 来 由 Richard Stallman 命名 为 “Posix”。 结 果 就 得 
到 了 一 系列 的 标准 ， 称 作 Posix 标准 。 这 套 标 准 涵盖 了 很 多 方面 ， 比 如 Unix 系统 调用 
的 C 语言 接口 、shell 程序 和 工具 、 线 程 及 网 络 编程 。 最 近 ， 一 个 被 称 为 “标准 Unix 规 
范 ” 的 独立 标准 化 工作 已 经 与 Posix 一 起 创建 了 统一 的 Unix 系统 标准 。 这 些 标准 化 工 
作 的 结果 是 Unix 版 本 之 间 的 差异 已 经 基本 消失 。 





1.7.1 进程 


像 hello 这 样 的 程序 在 现代 系统 上 运行 时 ， 操 作 系 统 会 提供 一 种 假象 ， 就 好 像 系统 上 只 
有 这 个 程序 在 运行 。 程 序 看 上 去 是 独占 地 使 用 处 理 器 、 主 存 和 IO 设备。 处理 器 看 上 去 就 像 
在 不 间断 地 一 条 接 一 条 地 执行 程序 中 的 指令 ， 即 该 程序 的 代码 和 数据 是 系统 内 存 中 唯一 的 对 
象 。 这 些 假象 是 通过 进程 的 概念 来 实现 的 ， 进 程 是 计算 机 科学 中 最 重要 和 最 成 功 的 概念 之 一 。 

进程 是 操作 系统 对 一 个 正在 运行 的 程序 的 一 种 抽象 。 在 一 个 系统 上 可 以 同时 运行 多 个 
进程 ， 而 每 个 进程 都 好 像 在 独占 地 使 用 硬件 。 而 并 发 运行 ， 则 是 说 一 个 进程 的 指令 和 为 一 
个 进程 的 指令 是 交错 执行 的 。 在 大 多 数 系统 中 ， 需 要 运行 的 进程 数 是 多 于 可 以 运行 它们 的 
CPU 个 数 的 。 传 统 系统 在 一 个 时 刻 只 能 执行 一 个 程序 ， 而 先进 的 多 核 处 理 右 同时 能 够 执 
行 多 个 程序 。 无 论 是 在 单 核 还 是 多 核 系 统 中 ， 一 个 CPU 看 上 去 都 像 是 在 并 发 地 执行 多 个 
进程 ， 这 是 通过 处 理 器 在 进程 间 切 换 来 实现 的 。 操 作 系 统 实现 这 种 交错 执行 的 机 制 称 为 上 
下 文 切 换 。 为 了 简化 讨论 ， 我 们 只 考虑 包含 一 个 CPU 的 单 处 理 器 系统 的 情况 。 我 们 会 在 
1,.9. 2 节 中 讨论 多 处 理 器 系统 。 


12 第 1 章 计算 机 系统 漫游 


操作 系统 保持 跟踪 进程 运行 所 需 的 所 有 状态 信息 。 这 种 状态 ， 也 就 是 上 下 文 ， 包 括 许 
多 信息 ， 比 如 PC 和 寄存 器 文件 的 当前 值 ， 以 及 主 存 的 内 容 。 在 任何 一 个 时 刻 ， 单 处 理 器 
系统 都 只 能 执行 一 个 进程 的 代码 。 当 操作 系统 决定 要 把 控制 权 从 当前 进程 转移 到 某 个 新 进 
程 时 ， 就 会 进行 上 下 文 切 换 ， 即 保存 当前 进程 的 上 下 文 、 恢 复 新 进程 的 上 下 文 ， 然 后 将 控 
制 权 传递 到 新 进程 。 新 进程 就 会 从 它 上 次 停止 的 地 方 开 始 。 图 1-12 展示 了 示例 hello 程 
序 运行 场景 的 基本 理念 。 

示例 场景 中 有 两 个 并 发 的 进程 : shell 进程 和 hello 进程。 最 开始 ， 只 有 shell 进程 在 
运行 ， 即 等 待命 令 行 上 的 输入 。 当 我 们 让 它 运行 hello 程序 时 ，shell 通过 调用 一 个 专门 
的 函数 ， 即 系统 调用 ， 来 执行 我 们 的 请 求 ， 系 统 调用 会 将 控制 权 传 递 给 操作 系统 。 操 作 系 
统 保存 shell 进程 的 上 下 文 ， 创 建 一 个 新 的 hello 进程 及 其 上 下 文 ， 然 后 将 控制 权 传 给 新 
的 hello 进程 。hello 进程 终止 后 ， 操 作 系统 恢复 shell 进程 的 上 下 文 ， 并 将 控制 权 传 回 
给 它 ，shell 进程 会 继续 等 待 下 一 个 命令 行 输入 。 

如 图 1-12 所 示 ， 从 一 个 进程 到 另 一 个 进程 的 转换 是 由 操作 系统 内 核 (kernel) 管 理 的 。 
内 核 是 操作 系统 代码 常 驻 主 存 的 部 分 。 当 应 用 程序 需要 操作 系统 的 某 些 操作 时 ， 比 如 读 写 
文件 ， 它 就 执行 一 条 特殊 的 系统 调用 (system call) 指 令 ， 将 控制 权 传递 给 内 核 。 然 后 内 核 
执行 被 请 求 的 操作 并 返回 应 用 程序 。 注 意 ， 内 核 不 是 一 个 独立 的 进程 。 相 反 ， 它 是 系统 管 
理 全 部 进程 所 用 代码 和 数据 结构 的 集合 。 


时 间 进程 A  。 ! ”进程 B 
y |! 用 户 代码 
read -一 > 
se 内 核 代码 上 上 下 文 切 换 
磁盘 中 断 --- DS 
A ; 内 核 代码 。 上 上下文 切 换 
rea 一 一 > | 
Y | 用 户 代码 


图 1-12 进程 的 上 下 文 切 换 


实现 进程 这 个 抽象 概念 需要 低级 硬件 和 操作 系统 软件 之 间 的 紧密 合作 。 我 们 将 在 第 8 
章 中 揭示 这 项 工作 的 原理 ， 以 及 应 用 程序 是 如 何 创建 和 控制 它们 的 进程 的 。 


1.7.2 线程 


尽管 通常 我 们 认为 一 个 进程 具有 单一 的 控制 流 ， 但 是 在 现代 系统 中 ， 一 个 进程 实际 上 
可 以 由 多 个 称 为 线程 的 执行 单元 组 成 ， 每 个 线程 都 运行 在 进程 的 上 下 文中 ， 并 共享 同样 的 
代码 和 全 局 数据 。 由 于 网 络 服务 如 中 对 并 行 处 理 的 需求 ， 线 程 成 为 越 来 越 重 要 的 编程 模 
型 ， 因 为 多 线程 之 间 比 多 进程 之 间 更 容易 共享 数据 ， 也 因为 线程 一 般 来 说 都 比 进程 更 高 
效 。 当 有 多 处 理事 可 用 的 时 候 ， 多 线程 也 是 一 种 使 得 程序 可 以 运行 得 更 快 的 方法 ,我 们 将 
在 1. 9. 2 节 中 讨论 这 个 问题 。 在 第 12 章 中 ,你 将 学 习 并 发 的 基本 概念 ， 包 括 如 何 写 线程 
化 的 程序 。 


1.7.3 虚拟 内 存 


虚拟 内 存 是 一 个 抽象 概念 ， 它 为 每 个 进程 提供 了 一 个 假象 ， 即 每 个 进程 都 在 独占 地 使 用 
主 存 。 每 个 进程 看 到 的 内 存 都 是 一 致 的 ， 称 为 虚拟 地 址 空间 。 图 1-13 所 示 的 是 Linux 进程 的 
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虚拟 地 址 空间 (其 他 Unix 系统 的 设计 也 与 此 类 似 )。 在 Linux 中 ， 地 址 空间 最 上 面 的 区 域 是 
保留 给 操作 系统 中 的 代码 和 数据 的 ， 这 对 所 有 进程 来 说 都 是 一 样 。 地 址 空间 的 底部 区 域 存放 
用 户 进程 定义 的 代码 和 数据 。 请 注意 ， 图 中 的 地 址 是 从 下 往 上 增 大 的 。 


内 核 虚 拟 内 存 | 
用 户 栈 内 存 
( 运行 时 创建 的 ) 


rp | I "a 一 ”wo Nh y 
| We i | he - 1 
1 四 、 y 机 » . pg 
ns - ee y FA > 
。 4 b 


et printf 隐 数 


t > 上 器 和 
” 9 
de ns 和 . 1 1 
$ La Ti 人 
生 且 ae < ne FF 
上 


运行 时 堆 
(在 运行 时 由 malloc 创 建 的 ) 
读 / 写 数据 从 hello 可 执行 
文件 加 载 进 来 的 
只 读 的 代码 和 数据 


图 1-13 ”进程 的 虚拟 地 址 空间 
每 个 进程 看 到 的 虚拟 地 址 空间 由 大 量 准确 定义 的 区 构成 ， 每 个 区 都 有 专门 的 功能 。 在 





本 书 的 后 续 章 节 你 将 学 到 更 多 有 关 这 些 区 的 知识 ， 但 是 先 简单 了 解 每 一 个 区 是 非常 有 益 
的 。 我 们 从 最 低 的 地 址 开始 ， 逐 步 加 上 介绍 。 


9 程序 代码 和 数据 。 对 所 有 的 进程 来 说 ， 代 码 是 从 同一 固定 地 址 开始 ， 紧 接着 的 是 和 
C 全 局 变量 相对 应 的 数据 位 置 。 代 码 和 数据 区 是 直接 按照 可 执行 目标 文件 的 内 容 初 
始 化 的 ， 在 示例 中 就 是 可 执行 文件 hello。 在 第 7 章 我 们 研究 链接 和 加 载 时 ， 你 会 
学 习 更 多 有 关 地 址 空间 的 内 容 。 

e 堆 。 代 码 和 数据 区 后 紧 随 着 的 是 运行 时 堆 。 代 码 和 数据 区 在 进程 一 开始 运行 时 就 被 
指定 了 大 小 ， 与 此 不 同 ， 当 调用 像 malloc 和 free 这 样 的 C 标准 库 图 数 时 ， 堆 可 
以 在 运行 时 动态 地 扩展 和 收缩 。 在 第 9 章 学 习 管 理 虚 拟 内 存 时 ， 我 们 将 更 详细 地 研 
究 堆 ，。 

@ 共享 库 。 大 约 在 地 址 空间 的 中 间 部 分 是 一 块 用 来 存放 像 C 标准 库 和 数学 库 这 样 的 共 
享 库 的 代码 和 数据 的 区 域 。 共 享 库 的 概念 非常 强大 ， 也 相当 难 懂 。 在 第 7 章 介 绍 动 
态 链 接 时 ， 将 学 习 共 享 库 是 如 何 工 作 的 。 

e 栈 。 位 于 用 户 虚 拟 地 址 空间 顶部 的 是 用 户 栈 ， 编 译 器 用 它 来 实现 消 数 调用 。 和 堆 一 
样 ， 用 户 栈 在 程序 执行 期 间 可 以 动态 地 扩展 和 收缩 。 特 别 地 ， 每 次 我 们 调用 一 个 顶 
数 时 ， 栈 就 会 增长 ; 从 一 个 函数 返回 时 ， 栈 就 会 收缩 。 在 第 3 章 中 将 学 习 编 译 器 是 
如 何 使 用 栈 的 。 

e@ 内 核 虚 拟 内 存 。 地 址 空间 顶部 的 区 域 是 为 内 核 保留 的 。 不 允许 应 用 程序 读 写 这 个 区 
域 的 内 容 或 者 直接 调用 内 核 代码 定义 的 函数 。 相 反 ， 它 们 必须 调用 内 核 来 执行 这 些 
操作 。 


14 第 1 章 计算 机 系统 漫游 


虚拟 内 存 的 运作 需要 硬件 和 操作 系统 软件 之 间 精 密 复 杂 的 交互 ， 包 括 对 处 理 龙 生成 的 每 
个 地 址 的 硬件 翻译 。 基 本 思想 是 把 一 个 进程 虚拟 内 存 的 内 容 存 储 在 磁盘 上 ， 然 后 用 主 存 作为 
磁盘 的 高 速 缓存 。 第 9 章 将 解释 它 如 何 工 作 ， 以 及 为 什么 对 现代 系统 的 运行 如 此 重要 。 


1.7.4 文件 


文件 就 是 字 节 序列 ， 仅 此 而 已 。 每 个 IO 设备 ， 包 括 磁盘 、 键 盘 、 显 示 器 ， 甚 至 网 
络 ， 都 可 以 看 成 是 文件 。 系 统 中 的 所 有 输入 输出 都 是 通过 使 用 一 小 组 称 为 Unix IO 的 系 
统 函数 调用 读 写 文件 来 实现 的 。 

文件 这 个 简单 而 精致 的 概念 是 非常 强大 的 ， 因 为 它 回应 用 程序 提供 了 一 个 统一 的 视 
图 ， 来 看 竺 系统 中 可 能 含有 的 所 有 各 式 各 样 的 IO 设备 。 例 如 ， 处 理 磁盘 文件 内 容 的 应 用 
程序 员 可 以 非常 幸福 ， 因 为 他 们 无 须 了 解 具 体 的 磁盘 技术 。 进 一 步 说 ， 同 一 个 程序 可 以 在 
使 用 不 同 磁盘 技术 的 不 同系 统 上 运行 。 你 将 在 第 10 章 中 学 习 Unix IO。 


ER Cmx 项 目 

1991 年 8 月 ， 芬 兰 研究 生 Linus Torvalds 谨慎 地 发 布 了 一 个 新 的 类 Unix 的 操作 系 
统 内 核 ， 内 容 如 下 。 

来 自 : torvalds@klaava. Helsinki. FI(Linus Benedict Torvalds) 

新 闻 组 : comp. os. minix 

主题 : 在 minix 中 你 最 想 看 到 什么 ? 

摘要 : 关于 我 的 新 操作 系统 的 小 调查 

时 间 : 1991 年 8 月 25 日 20:57:08 GMT 

每 个 使 用 minix 的 朋友 ， 你 们 好 。 

我 正在 做 一 个 (免费 的 ) 用 在 386(486)AT 上 的 操作 系统 (只 是 业余 爱好 ， 它 不 会 像 
GNU 那样 庞大 和 专业 )。 这 个 想法 自 4 月 份 就 开始 酝酿， 现在 快要 完成 了 。 我 希望 得 到 
各 位 对 minix 的 任何 反馈 意见 ， 因 为 我 的 操作 系统 在 某 些 方面 与 它 相 类 似 ( 其 中 包括 相 
同 的 文件 系统 的 物理 设计 (因为 某 些 实 际 的 原因 ))。 

我 现在 已 经 移植 了 bash(1.08) 和 gcc(1.40)， 并 且 看 上 去 能 运行 。 这 意味 着 我 需要 
几 个 月 的 时 间 来 让 它 变 得 更 实用 一 些 ， 并 且 ， 我 想 要 知道 大 多 数 人 想 要 什么 特性 。 欢 迎 
任何 建议 ， 但 是 我 无 法 保证 我 能 实现 它们 。 :-) 

Linus (torvalds@kruuna.helsinki .fi) 


就 像 Torvalds 所 说 的 ， 他 创建 Linux 的 起 点 是 Minix， 由 Andrew S. Tanenbaum 出 
于 教育 目的 开发 的 一 个 操作 系统 [113j]。 

接 下 来 ， 如 他 们 所 说 ， 这 就 成 了 历史 。Linux 逐渐 发 展 成 为 一 个 技术 和 文化 现象 。 
通过 和 GNU 项 目的 力量 结合 ，Linux 项 目 发 展 成 了 一 个 完整 的 、 符 合 Posix 标准 的 
Unix 操作 系统 的 版 本 ， 包 括 内 核 和 所 有 支撑 的 基础 设施 。 从 手持 设备 到 大 型 计算 机 ， 
Linux 在 范围 如 此 广泛 的 计算 机 上 得 到 了 应 用 。IBM 的 一 个 工作 组 甚至 把 Linux 移植 到 
了 一 块 腕 表 中 1! 


1.8 系统 之 间 利 用 网 络 通信 
系统 漫游 至 此 ， 我 们 一 直 是 把 系统 视 为 一 个 孤立 的 硬件 和 软件 的 集合 体 。 实 际 上 ， 现 
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代 系 统 经 常 通过 网 络 和 其 他 系统 连接 到 一 起 。 从 一 个 单独 的 系统 来 看 ， 网 络 可 视 为 一 
I/O 设备 ， 如 图 1-14 所 示 。 当 系统 从 主 存 复 制 一 串 字 节 到 网 络 适 配器 时 ， 数 据 流 经 过 网 络 
到 达 另 一 台 机 器 ， 而 不 是 比如 说 到 达 本 地 磁盘 驱动 器 。 相 似 地 ， 系 统 可 以 读 取 从 其 他 机 天 
发 送 来 的 数据 ， 并 把 数据 复制 到 自己 的 主 存 。 


CPU 芯片 





寄存 融 文 件 


全 






和 


惊 制 如 图 形 适配器 做 盘 控 制 器 Re 
女 标 ”键盘 显示 器 


图 1-14 网 络 也 是 一 种 MO 设备 


随 着 Internet 这 样 的 全 球 网 络 的 出 现 ， 从 一 台 主 机 复制 信息 到 另外 一 台 主 机 已 经 成 为 
计算 机 系统 最 重要 的 用 途 之 一 。 比 如 ， 像 电子 邮件 、 即 时 通信 、 万 维 网 、FTP 和 telnet 这 
样 的 应 用 都 是 基于 网 络 复制 信息 的 功能 。 

回 到 hello 示例 ， 我 们 可 以 使 用 熟悉 的 telnet 应 用 在 一 个 远程 主机 上 运行 nello 程 
序 。 假 设 用 本 地 主机 上 的 telnet 客户 端 连 接 远 程 主 机 上 的 telnet 服务 器 。 在 我 们 登录 到 远 
程 主机 并 运行 shell 后 ， 远 端的 shell 就 在 等 待 接收 输入 命令 。 此 后 在 远 端 运行 hello 程序 
包括 如 图 1-15 所 示 的 五 个 基本 步骤 。 

1 用 户 在 键盘 上 2. 客户 端 向 telnet 服 务 器 


输入 “hello” 发 送 字符 串 二 3. 服务 器 向 shell 发 送 字符 
本 地 telnet 远程 telnet 串 “hel1o”，shell 运 
en 服务 需 行 hello 程 序 并 将 输出 


显示 之 送 给 telne 
5 容 广 澳 在 显 不 吉林 吕 4.telnet 服 务 器 加 客户 端 发 送 省 国生 生机 


“hello world\n” 了 
字符 串 字符 串 “hello world\n 


图 1-15 利用 telnet 通过 网 络 远 程 运 行 hello 


当 我 们 在 telnet 客户 端 键 人 “hello” 字 符 串 并 剖 下 回 车 键 后 ， 客 户 端 软件 就 会 将 这 
个 字符 串 发 送 到 telnet 的 服务 器 。telnet 服务 器 从 网 络 上 接收 到 这 个 字符 串 后 ， 会 把 它 传 
递 给 远 端 shell 程序 。 接 下 来 ， 远 端 shell 运行 hello 程序 ， 并 将 输出 行 返回 给 telnet 服务 
器 。 最 后 ，telnet 服务 右 通 过 网 络 把 输出 串 转发 给 telnet 客户 端 ， 客 户 端 就 将 输出 串 输 出 
到 我 们 的 本 地 终端 上 。 

这 种 客户 端 和 服务 器 之 间 交 互 的 类 型 在 所 有 的 网 络 应 用 中 是 非常 典型 的 。 在 第 11 章 
中 ， 你 将 学 会 如 何 构造 网 络 应 用 程序 ， 并 利用 这 些 知识 创建 一 个 简单 的 Web 服务 顺 。 
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1.9 重要 主题 


在 此 ， 小 结 一 下 我 们 旋风 式 的 系统 漫游 。 这 次 讨论 得 出 一 个 很 重要 的 观点 ， 那 就 是 系 
统 不 仅仅 只 是 人 硬件。 系统 是 硬件 和 系统 软件 互相 交织 的 集合 体 ， 它 们 必须 共同 协作 以 达到 
运行 应 用 程序 的 最 终 目的 。 本 书 的 余下 部 分 会 讲述 硬件 和 软件 的 详细 内 容 ， 通 过 了 解 这 些 
详细 内 容 ， 你 可 以 写 出 更 快速 、 更 可 靠 和 更 安全 的 程序 。 

作为 本 章 的 结束 ， 我 们 在 此 强调 几 个 贯穿 计算 机 系统 所 有 方面 的 重要 概念 。 我 们 会 在 
本 书 中 的 多 处 讨论 这 些 概念 的 重要 性 。 


1.9.1 Amdahl 定律 


Gene Amdahl， 计算 领域 的 早期 先锋 之 一 ， 对 提升 系统 某 一 部 分 性 能 所 带 来 的 效果 做 
出 了 简单 却 有 见地 的 观察 。 这 个 观察 被 称 为 Amdahl 定律 (Amdahl’s law)。 该 定律 的 主要 
思想 是 ， 当 我 们 对 系统 的 某 个 部 分 加 速 时 ， 其 对 系统 整体 性 能 的 影响 取决 于 该 部 分 的 重要 
性 和 加 速 程度 。 阁 系统 执行 某 应 用 程序 需要 时 间 为 Tas。 假设 系统 某 部 分 所 需 执 行 时 间 与 
该 时 间 的 比例 为 a， 而 该 部 分 性 能 提升 比例 为 k。 即 该 部 分 初始 所 需 时 间 为 aTo4， 现 在 所 
需 时 间 为 (aTou)/&。 因 此 ， 总 的 执行 时 间 应 为 

Tow = (1 —a)Towt (aToa)/k = Toal (lO—a)+a/k] 
由 此 ， 可 以 计算 加 速 比 S 二 Tos/ Tw 为 


加 1 
二 Ee 


举 个 例子 ， 考 虑 这 样 一 种 情况 ， 系 统 的 某 个 部 分 初始 耗 时 比例 为 60% (a 二 0.6)， 其 加 速 比 
例 因子 为 3 一 3)。 则 我 们 可 以 获得 的 加 速 比 为 1/L0. 4 十 0. 6/3j 二 1.67 倍 。 虽 然 我 们 对 系统 的 
一 个 主要 部 分 做 出 了 重大 改进 ， 但 是 获得 的 系统 加 速 比 却 明显 小 于 这 部 分 的 加 速 比 。 这 就 是 
Amdahl 定律 的 主要 观点 一 一 要 想 显 著 加 速 整个 系统 ， 必 须 提升 全 系统 中 相当 大 的 部 分 的 速度 。 


ES 表示 相对 性 能 

性 能 提升 最 好 的 表示 方法 就 是 用 比例 的 形式 Tua/Toew， 其 中 ，Tos 为 原始 系统 所 需 
时 间 ，Toew 为 修改 后 的 系统 所 需 时 间 。 如 果 有 所 改进 ， 则 比值 应 大 于 1。 我 们 用 后 组 
“X?” 来 表示 比例 ， 因 此，“2.2X” 读 作 “2.2 倍 ”。 

表示 相对 变化 更 传统 的 方法 是 用 百分比 ， 这 种 方法 适用 于 变化 小 的 情况 ， 但 其 定义 
是 模糊 的 。 庙 该 等 于 100。(Tos 一 Tw)/Tiws， 还 是 100。《(To 一 Tw)/Tws， 还 是 其 他 
的 值 ? 此 外 ， 它 对 较 大 的 变化 也 没有 太 大 意义 。 与 简单 地 说 性 能 提升 2.2X 相 比 ,“ 性 能 
提升 了 120%?” 更 难 理解 。 


记 谨 练 习题 1. 1 假设 你 是 个 卡车 司机 ， 要 将 土豆 从 爱 达 荷 州 的 Boise 运送 到 明尼苏达 州 
的 Minneapolis， 人 全程 2500 公里 。 在 限 速 范围 内 ， 你 估计 平均 速度 为 100 公里 /小 时 ， 
整个 行程 需要 25 个 小 时 。 

A. 你 听 到 新 闻 说 蒙 大 拿 州 刚刚 取消 了 限 速 ， 这 使 得 行程 中 有 1500 公里 卡车 的 速度 可 
以 为 150 公里 /小 时 。 那 么 这 对 整个 行程 的 加 速 比 是 多 少 ? 

B. 你 可 以 在 www. fasttrucks. com 网 站 上 为 自己 的 卡车 买 个 新 的 涡轮 增 压 器 。 网 站 现 
货 供 应 各 种 型 号 ， 不 过 速度 越 快 ， 价 格 越 高 。 如 果 想 要 让 整个 行程 的 加 速 比 为 
1.67X ， 那 么 你 必须 以 多 快 的 速度 通过 蒙 大 拿 州 ? 
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度 汉 练习 题 1.2 公司 的 市 场 部 向 你 的 客户 承诺 ， 下 一 个 版 本 的 软件 性 能 将 改进 2X。 这 
项 任务 被 分 配给 你 。 你 已 经 确认 只 有 80% 的 系统 能 够 被 改进 ， 那么 ， 这 部 分 需要 被 
改进 多 少 ( 即 & 取 何 值 ) 才 能 达到 整体 性 能 目标 ? 

Amdahl 定律 一 个 有 趣 的 特殊 情况 是 考虑 上 趋 回 于 co 时 的 效果 。 这 就 意味 着 ， 我 们 可 
以 取 系 统 的 某 一 部 分 将 其 加 速 到 一 个 点 ， 在 这 个 点 上 ， 这 部 分 花费 的 时 间 可 以 忽略 不 计 。 
于 是 我 们 得 到 

1 

Ga) 

举 个 例子 ， 如 果 60% 的 系统 能 够 加 速 到 不 花 时 间 的 程度 ， 我 们 获得 的 净 加 速 比 将 仍 只 有 

1/0. 4=2. 5X 。 

Amdahl 定律 描述 了 改善 任何 过 程 的 一 般 原 则 。 除 了 可 以 用 在 加 速 计算 机 系统 方面 之 
外 ， 它 还 可 以 用 在 公司 试图 降低 刀片 制造 成 本 ， 或 学 生 想 要 提高 自己 的 绩 点 平均 值 等 方 
面 。 也 许 它 在 计算 机 世界 里 是 最 有 意义 的 ， 在 这 里 我 们 常常 把 性 能 提升 2 倍 或 更 高 的 比例 
因子 。 这 人 么 高 的 比例 因子 只 有 通过 优化 系统 的 大 部 分 组 件 才能 获得 。 


1.9.2 并 发 和 并 行 


数字 计算 机 的 整个 历史 中 ， 有 两 个 需求 是 驱动 进步 的 持续 动力 : 一 个 是 我 们 想 要 计算 
机 做 得 更 多 ， 男 一 个 是 我 们 想 要 计算 机 运行 得 更 快 。 当 处 理 帮 能够 同时 做 更 多 的 事情 时 ， 
这 两 个 因素 都 会 改进 。 我 们 用 的 术语 并 发 (concurrency) 是 一 个 通用 的 概念 ， 指 一 个 同时 具 
有 多 个 活动 的 系统 ; 而 术语 并 行 (parallelism) 指 的 是 用 并 发 来 使 一 个 系统 运行 得 更 快 。 并 
行 可 以 在 计算 机 系统 的 多 个 抽象 层次 上 运用 。 在 此 ， 我 们 按照 系统 层次 结构 中 由 高 到 低 的 
顺序 重点 强调 三 个 层次 。 

1. 线程 级 并 发 

构建 在 进程 这 个 抽象 之 上 ， 我 们 能 够 设计 出 同时 有 多 个 程序 执行 的 系统 ， 这 就 导致 了 
并 发 。 使 用 线程 ， 我 们 甚至 能 够 在 一 个 进程 中 执行 多 个 控制 流 。 目 20 世纪 60 年 代 初 期 出 
现时 间 共 享 以 来 ， 计 算 机 系统 中 就 开始 有 了 对 并 发 执行 的 支持 。 传 统 意 义 上 ， 这 种 并 发 执 
行 只 是 模拟 出 来 的 ， 是 通过 使 一 台 计 算 机 在 它 正 在 执行 的 进程 间 快 速 切换 来 实现 的 ， 就 好 
像 一 个 杂 要 艺人 保持 多 个 球 在 空中 飞舞 一 样 。 这 种 并 发 形式 允许 多 个 用 户 同 时 与 系统 交 
互 ， 例如， 当 许 多 人 想 要 从 一 个 Web 服务 器 获取 页 面 时 。 它 还 允许 一 个 用 户 同 时 从 事 多 
个 任务 ， 例 如， 在 一 个 窗口 中 开局 Web 浏览 副 ， 在 男 一 窗口 中 运行 字 处 理 器 ， 同 时 又 播 
放 音 乐 。 在 以 前 ， 即 使 处 理 带 必须 在 多 个 任务 间 切 换 ， 大 多 数 实 际 的 计算 也 都 是 由 一 个 处 
理 需 来 完成 的 。 这 种 配置 称 为 单 处 理 器 系统 。 

当 构 建 一 个 由 单 操 作 系统 内 核 控 制 的 多 处 理 
髓 组 成 的 系统 时 ， 我 们 就 得 到 了 一 个 多 处 理 器 系 
统 。 其 实 从 20 世纪 80 年 代 开 始 ， 在 大 规模 的 计 
算 中 就 有 了 这 种 系统 ， 但 是 直到 最 近 ， 随 着 多 核 
处 理 徐 和 超 线程 (hyperthreading) 的 出 现 ， 这 种 
系统 才 变 得 常见。 1-16 给 出 了 这 些 不 同 处 理 
髓 类 型 的 分 类 。 

多 核 处 理 器 是 将 多 个 CPU( 称 为 “ 核 ”) 集 成 ”处理 器 和 起 线程 的 出 现 ， 多 处 再 吕 
到 一 个 集成 电路 芯片 上 。 图 1-17 描述 的 是 一 个 变 得 普遍 了 


das C1 加) 


所 有 的 处 理 融 
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典型 多 核 处 理 需 的 组 织 结构 ， 其 中 微 处 理 器 芯片 有 4 个 CPU 核 ， 每 个 核 都 有 自己 的 Ll 和 
L2 高 速 缓存 ， 其 中 的 L1 高 速 缓存 分 为 两 个 部 分 一 一 一 个 保存 最 近 取 到 的 指令 ， 另 一 个 存 
放 数 据 。 这 些 核 共享 更 高 层次 的 高 速 缓存 ， 以 及 到 主 存 的 接口 。 工 业界 的 专家 预言 他 们 能 
够 将 几 十 个 、 最 终 会 是 上 百 个 核 做 到 一 个 芯片 上 。 


处 理 需 封装 包 





图 1-17 多 核 处 理 需 的 组 织 纺 构 。4 个 处 理 器 核 集 成 在 一 个 蕊 片上 


超 线 程 ， 有 时 称 为 同时 多 线程 (simultaneous multi-threading)， 是 一 项 允许 一 个 CPU 
执行 多 个 控制 流 的 技术 。 它 涉及 CPU 某 些 硬件 有 多 个 备份 ， 比 如 程序 计数 融和 寄存 器 文 
件 ， 而 其 他 的 硬件 部 分 只 有 一 份 ， 比 如 执行 浮 点 算术 运算 的 单元 。 篆 规 的 处 理 器 需要 大 约 
20 000 个 时 钟 周期 做 不 同 线程 间 的 转换 ， 而 超 线程 的 处 理 右 可 以 在 单个 周期 的 基础 上 决定 
要 执行 哪 一 个 线程 。 这 使 得 CPU 能 够 更 好 地 利用 它 的 处 理 资源 。 比 如 ， 假 设 一 个 线程 必 
须 等 到 某 些 数据 被 装载 到 高 速 缓存 中 ， 那 CPU 就 可 以 继续 去 执行 另 一 个 线程 。 举 例 来 说 ， 
Intel Core i7 处 理 屁 可 以 让 每 个 核 执 行 两 个 线程 ， 所 以 一 个 4 核 的 系统 实际 上 可 以 并 行 地 
执行 8 个 线程 。 

多 处 理 器 的 使 用 可 以 从 两 方面 提高 系统 性 能 。 首 先 ， 它 减少 了 在 执行 多 个 任务 时 模拟 
并 发 的 需要 。 正 如 前 面 提 到 的 ， 即 使 是 只 有 一 个 用 户 使 用 的 个 人 计算 机 也 需要 并 发 地 执行 
多 个 活动 。 其 次 ， 它 可 以 使 应 用 程序 运行 得 更 快 ， 当 然 ， 这 必须 要 求 程序 是 以 多 线程 方式 
来 书写 的 ， 这 些 线程 可 以 并 行 地 高 效 执行 。 因 此 ， 虽然 并 发 原理 的 形成 和 研究 已 经 超过 50 
年 的 时 间 了 ， 但 是 多 核 和 超 线 程 系 统 的 出 现 才 极 大 地 激发 了 一 种 愿望 ， 即 找到 书写 应 用 程 
序 的 方法 利用 硬件 开发 线程 级 并 行 性 。 第 12 章 会 更 深入 地 探讨 并 发 ， 以 及 使 用 并 发 来 提 
供 处 理 器 资源 的 共享 ， 使 程序 的 执行 允许 有 更 多 的 并 行 。 

2. 指令 级 并 行 

在 较 低 的 抽象 层次 上 ， 现 代 处 理 器 可 以 同时 执行 多 条 指令 的 属性 称 为 指令 级 并 行 。 早 
期 的 微 处 理 器 ， 如 1978 年 的 Intel 8086， 需 要 多 个 (通常 是 3 一 10 个 ) 时 钟 周 期 来 执行 一 条 
指令 。 最 近 的 处 理 器 可 以 保持 每 个 时 钟 周 期 2 一 4 条 指令 的 执行 速率 。 其 实 每 条 指令 从 开 
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始 到 结束 需要 长 得 多 的 时 间 ， 大 约 20 个 或 者 更 多 周期 ， 但 是 处 理 器 使 用 了 非常 多 的 聪明 
技巧 来 同时 处 理 多 达 100 条 指令 。 在 第 4 章 中 ， 我 们 会 研究 流水 线 (pipelining) 的 使 用 。 在 
流水 线 中 ， 将 执行 一 条 指令 所 需要 的 活动 划分 成 不 同 的 步 又， 将 处 理 器 的 硬件 组 织 成 一 系 
列 的 阶段 ， 每 个 阶段 执行 一 个 步骤 。 这 些 阶 段 可 以 并 行 地 操作 ， 用 来 处 理 不 同 指令 的 不 同 
部 分 。 我 们 会 看 到 一 个 相当 简单 的 硬件 设计 ， 它 能 够 达到 接近 于 一 个 时 钟 周期 一 条 指令 的 
执行 速率 。 

如 果 处 理 顺 可 以 达到 比 一 个 周期 一 条 指令 更 快 的 执行 速率 ， 就 称 之 为 超标 量 (super- 
scalar) 处 理 器 。 大 多 数 现 代 处 理 器 都 文 持 超标 量 操作 。 第 5 章 中 ， 我 们 将 描述 超标 量 处 理 
右 的 高 级 模型 。 应 用 程序 员 可 以 用 这 个 模型 来 理解 程序 的 性 能 。 然 后 ， 他 们 就 能 写 出 拥有 
更 高 程度 的 指令 级 并 行 性 的 程序 代码 ， 因 而 也 运行 得 更 快 。 

3. 单 指令 、 多 数据 并 行 

在 最 低层 次 上 ， 许 多 现代 处 理 器 拥有 特殊 的 硬件 ， 人 允许 一 条 指令 产生 多 个 可 以 并 行 执 
行 的 操作 ， 这 种 方式 称 为 单 指 令 、 多 数据 ， 即 SIMD 并 行 。 例 如 ， 较 新 几 代 的 Intel 和 
AMD 处 理 器 都 具有 并 行 地 对 8 对 单 精 度 浮 点 数 (C 数据 类 型 float) 做 加 法 的 指令 。 

提供 这 些 SIMD 指令 多 是 为 了 提高 处 理 影 像 、 声 音 和 视频 数据 应 用 的 执行 速度 。 虽 然 
有 些 编译 器 会 试图 从 C 程序 中 自动 抽取 SIMD 并 行 性 ， 但 是 更 可 靠 的 方法 是 用 编译 器 支持 
的 特殊 的 向 量 数据 类 型 来 写 程序 ， 比 如 GCC 就 支持 向 量 数据 类 型 。 作 为 对 第 5 章 中 比较 
通用 的 程序 优化 摘 述 的 补充 ， 我 们 在 网 络 劳 注 OPT:SIMD 中 描述 了 这 种 编程 方式 。 


1.9.3 计算 机 系统 中 抽象 的 重要 性 


抽象 的 使 用 是 计算 机 科学 中 最 为 重要 的 概念 之 一 。 例 如 ， 为 一 组 函数 规定 一 个 简单 的 
应 用 程序 接口 (APD 就 是 一 个 很 好 的 编程 习惯 ， 程 序 员 无 须 了 解 它 内 部 的 工作 便 可 以 使 用 
这 些 代 码 。 不 同 的 编程 语言 提供 不 同形 式 和 等 级 的 抽象 支持 ， 例 如 Java 类 的 声明 和 C 语 
言 的 郴 数 原型 。 

我 们 已 经 介绍 了 计算 机 系统 中 使 用 的 几 个 抽象 ， 如 图 1-18 所 示 。 在 处 理 器 里 ， 指 令 
集 架 构 提 供 了 对 实际 处 理 需 硬件 的 抽象 。 使 用 这 个 抽象 ， 机 顺 代 码 程 序 表现 得 就 好 像 运行 
在 一 个 一 次 只 执行 一 条 指令 的 处 理 器 上 。 底 层 的 硬件 远 比 抽象 描述 的 要 复杂 精细 ， 它 并 行 
地 执行 多 条 指令 ， 但 又 总 是 与 那个 简单 有 序 的 模型 保持 一 致 。 只 要 执行 模型 一 样 ， 不 同 的 
处 理 絮 实现 也 能 执行 同样 的 机 器 代码 ， 而 又 提供 不 同 的 开销 和 性 能 。 


虚拟 机 


指令 集 架构 虚拟 内 存 


| 文件 
一 一 


操作 系统 处 理 几 


图 1-18 ”计算 机 系统 提供 的 一 些 抽象 。 计 算 机 系统 中 的 一 个 重大 主题 就 是 
提供 不 同 层次 的 抽象 表示 ， 来 隐藏 实际 实现 的 复杂 性 
在 学 习 操 作 系 统 时 ， 我 们 介绍 了 三 个 抽象 : 文件 是 对 I/O 〇 设备 的 抽象 ， 虚 拟 内 存 是 对 
程序 存储 器 的 抽象 ， 而 进程 是 对 一 个 正在 运行 的 程序 的 抽象 。 我 们 再 增加 一 个 新 的 抽象 : 
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虚拟 机 ， 它 提供 对 整个 计算 机 的 抽象 ， 包 括 操作 系统 、 处 理 器 和 程序 。 虚 拟 机 的 思想 是 
IBM 在 20 世纪 60 年 代 提 出 来 的 ， 但 是 最 近 才 显示 出 其 管理 计算 机 方式 上 的 优势 ， 因 为 一 
些 计 算 机 必须 能 够 运行 为 不 同 的 操作 系统 (例如 ，Microsoft Windows、MacOS 和 Linux) 
或 同一 操作 系统 的 不 同 版 本 设计 的 程序 。 

在 本 书后 续 的 章节 中 ， 我 们 会 具体 介绍 这 些 抽 象 。 


1, 1 汶 半 


计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 ， 它们 共同 协作 以 运行 应 用 程序 。 计 算 机 内 部 的 信息 被 表示 
为 一 组 组 的 位 ， 它 们 依据 上 下 文 有 不 同 的 解释 方式 。 程 序 被 其 他 程序 翻译 成 不 同 的 形式 ， 开 始 时 是 
ASCI 文本 ， 然 后 被 编译 器 和 链接 器 翻译 成 二 进 制 可 执行 文件 。 

处 理 器 读 取 并 解释 存放 在 主 存 里 的 二 进 制 指令 。 因 为 计算 机 花费 了 大 量 的 时 间 在 内 存 、LO 设备 和 
CPU 寄存 器 之 间 复 制 数据 ， 所 以 将 系统 中 的 存储 设备 划分 成 层次 结构 一 一 CPU 寄存 器 在 项 部， 接着 是 多 
层 的 硬件 高 速 缓存 存储 器 、DRAM 主 存 和 磁盘 存储 器 。 在 层次 模型 中 ， 位 于 更 高 层 的 存储 设备 比 低层 的 
存储 设备 要 更 快 ， 单 位 比特 造价 也 更 高 。 层 次 结构 中 较 高 层次 的 存储 设备 可 以 作为 较 低 层次 设备 的 高 速 
缓存 。 通 过 理解 和 运用 这 种 存储 层次 结构 的 知识 ， 程 序 员 可 以 优化 C 程序 的 性 能 。 

操作 系统 内 核 是 应 用 程序 和 硬件 之 间 的 媒介 。 它 提供 三 个 基本 的 抽象 : 1) 文 件 是 对 IO 设备 的 抽象 ; 
2) 虚 拟 内 存 是 对 主 存 和 磁盘 的 抽象 ; 3) 进 程 是 处 理 磊 、 主 存 和 1/O 设备 的 抽象 。 

最 后 ， 网 络 提供 了 计算 机 系统 之 间 通 信 的 手段 。 从 特殊 系统 的 角度 来 看 ， 网 络 就 是 一 种 MO 设备 。 


参考 文献 说 明 


Ritchie 写 了 关于 早期 C 和 Unix 的 有 趣 的 第 一 手 资 料 [91，92 |]|。Ritchie 和 Thompson 提供 了 最 早出 
版 的 Unix 资料 [93]。Silberschatz、Galvin 和 Gagne[ 102 |] 提供 了 关于 Unix 不 同 版 本 的 详尽 历史 。GNU 
(www. gnu. org) 和 Linux(www. linux. org) 的 网 站 上 有 大 量 的 当前 信息 和 历史 资料 。Posix 标准 可 以 在 线 
获得 (www. unix. org) 。 


练习 题 答案 


1. 1 该 问题 说 明 Amdahl 定律 不 仅仅 适用 于 计算 机 系统 。 
A. 根据 公式 1.1， 有 a==0.6, k= 二 1.5。 更 直接 地 说 ， 在 蒙 大 拿 行驶 的 1500 公里 需要 10 个 小 时 ， 而 
其 他 行程 也 需要 10 个 小 时 。 则 加 速 比 为 25/(10 十 10) 王 1.25X。 
B. 根据 公式 1.1， 有 a 二 0.6， 要 求 S=1.67， 则 可 算出 &。 更 直接 地 说 ， 要 使 行程 加 速度 达到 1.67X ,我 
们 必须 把 全 程 时 间 减 少 到 15 个 小 时 。 蒙 大 拿 以 外 仍 要 求 为 10 小 时 ， 因 此 ， 通 过 蒙 大 拿 的 时 间 
就 为 5 个 小 时 。 这 就 要 求 行驶 速度 为 300 公里 /小 时 ， 对 卡车 来 说 这 个 速度 太 快 了 ! 
1.2 理解 Amdahl 定律 最 好 的 方法 就 是 解决 一 些 实例 。 本 题 要 求 你 从 特殊 的 角度 来 看 公式 1. 1。 
本 题 是 公式 的 简单 应 用 。 已 知 S$ 二 2，a 二 0.8， 则 计算 : 


,I 
(1—0.8) 十 0.8/k 


0.4 十 1.6/k&==1.0 
k= 2.67 
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程序 结构 和 执行 


我 们 对 计算 机 系统 的 探索 是 从 学 习 计 算 机 本 身 开始 的 ， 它 由 
处 理 器 和 存储 器 子 系统 组 成 。 在 核心 部 分 ， 我们 需要 方法 来 表示 
基本 数据 类 型 ， 比 如 整数 和 实数 运算 的 近似 值 。 然 后 ,我 们 考虑 
机 器 级 指令 如 何 操作 这 样 的 数据 ， 以 及 编译 器 又 如 何 将 C 程序 翻 
译 成 这 样 的 指令 。 接 下 来 ,研究 儿 种 实现 处 理 器 的 方法 ， 帮助 我 
们 更 好 地 了 解 硬件 资源 如 何 被 用 来 执行 指令 。 一 旦 理解 了 编译 器 
和 机 器 级 代码 ， 我 们 就 能 了 解 如 何 通过 编写 C 程序 以 及 编译 它们 
来 最 大 化 程序 的 性 能 。 本 部 分 以 存储 器 子 系统 的 设计 作为 结束 ， 
这 是 现代 计算 机 系统 最 复杂 的 部 分 之 一 。 

本 书 的 这 一 部 分 将 领 着 你 深入 了 解 如 何 表示 和 执行 应 用 程序 。 
你 将 学 会 一 些 技巧 ， 来 帮助 你 写 出 安全 、 可 靠 且 充分 利用 计算 资 
源 的 程序 。 
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诗 奶 的 表示 和 处 理 


现代 计算 机 存储 和 处 理 的 信息 以 二 值 信 号 表示 。 这 些微 不 足 道 的 二 进 制 数 字 ， 或 者 称 
为 位 (bit) ， 形 成 了 数字 革命 的 基础 。 大 家 熟悉 并 使 用 了 1000 多 年 的 十 进 制 (以 10 为 基数 ) 
起 源 于 印度 ,在 12 世纪 被 阿拉 伯 数 学 家 改进 ， 并 在 13 世纪 被 意大利 数学 家 Leonardo 
Pisano( 大 约 公 元 1170 一 1250， 更 为 大 家 所 熟知 的 名 字 是 Fibonacci) 带 到 西方 。 对 于 有 10 
个 手指 的 人 类 来 说 ， 使 用 十 进 制 表示 法 是 很 自然 的 事情 ， 但 是 当 构 造 存 储 和 处 理 信息 的 机 
器 时 ， 二 进 制 值 工作 得 更 好 。 二 值 信 和 号 能 够 很 容易 地 被 表示 、 存 储 和 传输 ， 例 如 ， 可 以 表 
示 为 穿孔 卡片 上 有 洞 或 无 洞 、 导 线 上 的 高 电压 或 低 电 压 ， 或 者 顺 时 针 或 逆 时 针 的 磁场 。 对 
二 值 信号 进行 存储 和 执行 计算 的 电子 电路 非常 简单 和 可 靠 ， 制 造 商 能 够 在 一 个 单独 的 硅 片 
上 集成 数 百 万 甚至 数 十 亿 个 这 样 的 电路 。 

tee tv hd iether de die eg td 
pretation) ， pa rit 含意 ， 我 们 就 能 够 表示 任何 有 限 集合 的 元 素 。 

如 ， 使 用 一 个 二 进 制 数字 系统 ,我们 能 够 用 位 组 来 编码 非 负 数 。 aries 
hese tt 和 我 们 将 讨论 这 两 种 编码 ， 以 及 负数 
表示 和 实数 近似 值 的 编码 。 

我 们 研究 三 种 最 重要 的 数字 表示 。 无 符号 (unsigned) 编 码 基 于 传统 的 二 进 制 表 示 法 ， 
表示 大 于 或 者 等 于 零 的 数字 。 补 码 (two’s-complement) 编 码 是 表示 有 符号 整数 的 最 常见 的 
方式 ， 有 符号 整数 就 是 可 以 为 正 或 者 为 负 的 数字 。 浮 点 数 (floating-point) 编 码 是 表示 实数 
的 科学 记 数 法 的 以 2 为 基数 的 版 本 。 计 算 机 用 这 些 不 同 的 表示 方法 实现 算术 运算 ， 例 如 加 
法 和 乘法 ， 类 似 于 对 应 的 整数 和 实数 运算 。 

计算 机 的 表示 法 是 用 有 限 数量 的 位 来 对 一 个 数字 编码 ， 因 此 ， 当 结果 太 大 以 至 不 能 表 
示 时 ， 某 些 运 算 就 会 溢出 (overflow)。 溢 出 会 导致 某 些 邻 人 吃惊 的 后 果 。 例 如 ， 在 今天 的 
大 多 数 计算 机 上 (使 用 32 位 来 表示 数据 类 型 int)， 计 算 表 达 式 200*300*400*500 会 得 出 结果 
一 884 901 888。 这 违背 了 整数 运算 的 特性 ， 计 算 一 组 正 数 的 乘积 不 应 产生 一 个 负 的 结果 。 

另 一 方面 ， 整 数 的 计算 机 运算 满足 人 们 所 熟知 的 真正 整数 运算 的 许多 性 质 。 例 如 ， 利 
用 乘法 的 结合 律 和 交换 律 ， 计 算 下 面 任何 一 个 C 表达 式 ， 都 会 得 出 结果 一 884 901 888: 

(500 * 400) * (300 * 200) 

((500 * 400) * 300) * 200 

((200 * 500) * 300) * 400 

400  * (200* (300 * 500) ) 

计算 机 可 能 没有 产生 期 望 的 结果 ， 但 是 至 少 它 是 一 致 的 ! 

浮 点 运算 有 完全 不 同 的 数学 属性 。 虽 然 溢 出 会 产生 特殊 的 值 十 ce ， 但 是 一 组 正 数 的 乘 
积 总 是 正 的 。 由 于 表示 的 精度 有 限 ， 浮 点 运算 是 不 可 结合 的 。 例 如 ， 在 大 多 数 机 各 上 ，C 
表达 式 (3.14+1e20) -le20 求 得 的 值 会 是 0.0， 而 3.14+ (1e20-1e20) 求 得 的 值 会 是 3. 14。 
整数 运算 和 浮 点 数 运 算 会 有 不 同 的 数学 属性 是 因为 它们 处 理 数字 表示 有 限 性 的 方式 不 
示 虽 然 只 能 编码 一 个 相对 较 小 的 数值 范围 ， 但 是 这 种 表示 是 精确 的 ;而 浮 
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点 数 虽 然 可 以 编码 一 个 较 大 的 数值 范围 ， 但 是 这 种 表示 只 是 近似 的 。 

通过 研究 数字 的 实际 表示 ， 我 们 能 够 了 解 可 以 表示 的 值 的 范围 和 不 同 算术 运算 的 属 
性 。 为 了 使 编写 的 程序 能 在 全 部 数值 范围 内 正确 工作 ， 而 且 具 有 可 以 跨越 不 同 机 历 、 操 作 
系统 和 编译 器 组 合 的 可 移植 性 ， 了 解 这 种 属性 是 非常 重要 的 。 后 面 我 们 会 讲 到 ， 大 量 计算 
机 的 安全 漏洞 都 是 由 于 计算 机 算术 运算 的 微妙 细节 引发 的 。 在 早期 ， 当 人 们 碰巧 触发 了 程 
序 漏洞 ， 只 会 给 人 们 带 来 一 些 不 便 ， 但 是 现在 ， 有 众多 的 黑客 企图 利用 他 们 能 找到 的 任何 
漏洞 ， 不 经 过 授权 就 进入 他 人 的 系统 。 这 就 要 求 程 序 员 有 更 多 的 责任 和 义务 ， 去 了 解 他 们 
的 程序 如 何 工 作 ， 以 及 如 何 被 迫 产 生 不 良 的 行为 。 

计算 机 用 几 种 不 同 的 二 进 制 表示 形式 来 编码 数值 。 随 着 第 3 章 进入 机 器 级 编程 ， 你 需 
要 熟悉 这 些 表示 方式 。 在 本 章 中 ， 我 们 描述 这 些 编码 ， 并 且 教 你 如 何 推出 数字 的 表示 。 

通过 直接 操作 数字 的 位 级 表示 ， 我 们 得 到 了 几 种 进行 算术 运算 的 方式 。 理 解 这 些 技 术 对 
于 理解 编译 器 产生 的 机 器 级 代码 是 很 重要 的 ， 编 译 需 会 试图 优化 算术 表达 式 求 值 的 性 能 。 

我 们 对 这 部 分 内 容 的 处 理 是 基于 一 组 核心 的 数学 原理 的 。 从 编码 的 基本 定义 开始 ， 然 
后 得 出 一 些 属 性 ， 例 如 可 表示 的 数字 的 范围 、 它 们 的 位 级 表示 以 及 算术 运算 的 属性 。 我 们 
相信 从 这 样 一 个 抽象 的 观点 来 分 析 这 些 内 容 ， 对 你 来 说 是 很 重要 的 ， 因 为 程序 员 需 要 对 计 
算 机 运算 与 更 为 人 熟悉 的 整数 和 实数 运算 之 间 的 关系 有 清晰 的 理解 。 


天 了 怎样 阅读 本 章 


本 章 我 们 研究 在 计算 机 上 如 何 表示 数字 和 其 他 形式 数据 的 基本 属性 ， 以 及 计算 机 对 
这 些 数 据 执 行 操 作 的 属性 。 这 就 要 求 我 们 深入 研究 数学 语言 ， 编 写 公 式 和 方程 式 ， 以 及 
展示 重要 属性 的 推导 。 

为 了 帮助 你 阅读 ， 这 部 分 内 容 安 排 如 下 : 首先 给 出 以 数学 形式 表示 的 属性 ， 作 为 原 
理 。 然 后 ， 用 例子 和 非 形 式 化 的 讨论 来 解释 这 个 原理 。 我 们 建议 你 反复 阅读 原理 描述 和 
它 的 示例 与 讨论 ， 直 到 你 对 该 属性 的 说 明 内 容 及 其 重要 性 有 了 牢固 的 直觉 。 对 于 更 加 复 
杂 的 属性 ， 还 会 提供 推导 ， 其 结构 看 上 去 将 会 像 一 个 数学 证 明 。 虽 然 最 终 你 应 该 尝试 理 
解 这 些 推导 ， 但 在 第 一 次 阅读 时 你 可 以 跳 过 它们 。 

我 们 也 鼓励 你 在 阅读 正文 的 过 程 中 完成 练习 题 ， 这 会 促使 你 主动 学 习 ， 帮 助 你 理论 联 
系 实际 。 有 了 这 些 例 题 和 练习 题 作 为 背景 知识 ， 再 返回 推导 ， 你 将 发 现 理 解 起 来 会 容易 许 
多 。 同 时 ， 请 放心 ， 掌 握 好 高 中 代数 知识 的 人 都 具备 理解 这 些 内 容 所 需要 的 数学 技能 。 


C++ 编程 语言 建立 在 C 语言 基础 之 上 ， 它 们 使 用 完全 相同 的 数字 表示 和 运算 。 本 章 
中 关于 C 的 所 有 内 容 对 C++ 都 有 效 。 男 一 方面 ，Java 语言 创造 了 一 套 新 的 数字 表示 和 运 
算 标准 。C 标准 的 设计 允许 多 种 实现 方式 ， 而 Java 标准 在 数据 的 格式 和 编码 上 是 非常 精确 
具体 的 。 本 章 中 多 处 着 重 介 绍 了 Java 支持 的 表示 和 运算 。 


匿 河 c 编程 语言 的 演变 
前 面 提 到 过 ，C 编程 语言 是 贝尔 实验 室 的 Dennis Ritchie 最 早 开 发 出 来 的 ， 目 的 是 
和 Unix 操作 系统 一 起 使 用 (Unix 也 是 贝尔 实验 室 开 发 的 )。 在 那个 时 候 ， 大 多 数 系 统 程 
序 ， 例 如 操作 系统 ， 为 了 访问 不 同 数据 类 型 的 低级 表示 ， 都 必须 大 量 地 使 用 汇编 代码 。 
比如 说 ， 像 malloc 新 函数 提供 的 内 存 分 配 功能 ， 用 当时 的 其 他 高 级 语言 是 无 法 编写 的 。 
Brian Kernighan 和 Dennis Ritchie 的 著作 的 第 1 版 L60] 记 录 了 最 初 贝 尔 实 验 室 的 C 
语言 版 本 。 随 着 时 间 的 推移 ， 经 过 多 个 标准 化 组 织 的 努力 ，C 语言 也 在 不 断 地 演变 。1989 
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年 ， 美 国 国家 标准 学 会 下 的 一 个 工作 组 推出 了 ANSI C 标准 ， 对 最 初 的 贝尔 实验 室 的 C 
语言 做 了 重大 修改 。ANSIC 与 贝尔 实验 室 的 C 有 了 很 大 的 不 同 ， 尤 其 是 函数 声明 的 方 
式 。Brian Kernighan 和 Dennis Ritchie 在 著作 的 第 2 版 [|61 | 中 描述 了 ANSI C， 这 本 书 
至 今 仍 被 公认 为 关于 CC 语言 最 好 的 参考 手册 之 一 。 

国际 标准 化 组 织 接 震 了 对 C 语言 进行 标准 化 的 任务 ， 在 1990 年 推出 了 一 个 几乎 和 
ANSI C 一样 的 版 本 ， 称 为 “ISO C90”。 该 组 织 在 1999 年 又 对 C 语言 做 了 更 新 ， 推 出 
“ISO C99”。 在 这 一 版 本 中 ， 引 入 了 一 些 新 的 数据 类 型 ， 对 使 用 不 符合 英语 语言 字符 的 
文本 字符 串 提供 了 支持 。 更 新 的 版 本 2011 年 得 到 批准 ， 称 为 “ISO C11”， 其 中 再 次 添 
加 了 更 多 的 数据 类 型 和 特性 。 了 最 近 增 加 的 大 多 数 内 容 都 可 以 向 后 兼容 ， 这 意味 着 根据 早 
期 标准 (至 少 可 以 回溯 到 ISO C90) 编 写 的 程序 按 新 标准 编译 时 会 有 同样 的 行为 。 


和 


tion，GCC) 可 以 基于 不 同 的 命令 行 选项 ， 依 照 GNU 89 无 ，-std=gnu89 
多 个 不 同 版 本 的 C 语言 规则 来 编译 程序 » 如 图 2- ANSI, ISO C90 -ansi, -std=c89 
1 所 示 。 比 如， 根据 ISO C11 来 编译 程序 prog. ISO C99 -std=c99 





c， 我 们 就 使 用 命令 行 : ISO C11 -std=cll 
linux> gcc -std=c11 prog.c 图 2-1 向 GCC 指定 不 同 的 C 语 言 版 本 


编译 选项 -ansi 和 -std=c89 的 用 法 是 一 样 的 一 一 会 根据 ANSI 或 者 ISO C90 标准 来 编 
译 程 序 。(C90 有 时 也 称 为 “C89”， 这 是 因为 它 的 标准 化 工作 是 从 1989 年 开始 的 。) 编 译 
选项 -std=c99 会 让 编译 器 按照 ISO C99 的 规则 进行 编译 。 

本 书 中 ， 没 有 指定 任何 编译 选项 时 ， 程 序 会 按照 基于 ISO C90 的 C 语言 版 本 进行 编 
译 ， 但 是 也 包括 一 些 C99、C1l1 的 特性 ， 一 些 C++ 的 特性 ， 还 有 一 些 是 与 GCC 相关 的 
特性 。GNU 项 目 正 在 开发 一 个 结合 了 ISO Cll 和 其 他 一 些 特 性 的 版 本 ， 可 以 通过 命令 行 
选项 -std=gnull 来 指定 。( 目 前 ， 这 个 实现 还 未 完成 。) 今 后 ， 这 个 版 本 会 成 为 默认 的 版 本 。 


2.1 信息 存储 


大 多 数 计 算 机 使 用 8 位 的 块 ， 或 者 字 节 (byte)， 作 为 最 小 的 可 寻 址 的 内 存单 位 ， 而 不 
是 访问 内 存 中 单独 的 位 。 机 器 级 程序 将 内 存 视 为 一 个 非常 大 的 字 节 数组 ， 称 为 虚拟 内 存 
(virtual memory)。 内 存 的 每 个 字 节 都 由 一 个 唯一 的 数字 来 标识 ， 称 为 它 的 地 址 (ad- 
dress) ， 所 有 可 能 地 址 的 集合 就 称 为 虚拟 地 址 空间 (virtual address space)。 顾 名 思 义 ， 这 
个 虚拟 地 址 空间 只 是 一 个 展现 给 机 需 级 程序 的 概念 性 上 映像。 实际 的 实现 ( 见 第 9 章 ) 是 将 动 
态 随机 访问 存储 器 (DRAM) 、 闪 存 、 磁 盘存 储 器 、 特 殊 硬 件 和 操作 系统 软件 结合 起 来 ， 为 
程序 提供 一 个 看 上 去 统一 的 字 节 数组 。 

在 接 下 来 的 几 章 中 ， 我 们 将 讲述 编译 器 和 运行 时 系统 是 如 何 将 存储 器 空间 划分 为 更 可 
管理 的 单元 ， 来 存放 不 同 的 程序 对 象 (program object)， 即 程序 数据 、 指 令 和 控制 信息 。 
可 以 用 各 种 机 制 来 分 配 和 管理 程序 不 同 部 分 的 存储 。 这 种 管理 完全 是 在 虚拟 地 址 空间 里 完 
成 的 。 例 如 ，C 语言 中 一 个 指针 的 值 ( 无 论 它 指 回 一 个 整数 、 一 个 结构 或 是 某 个 其 他 程序 
对 象 ) 都 是 某 个 存储 块 的 第 一 个 字 节 的 虚拟 地 址 。C 编译 器 还 把 每 个 指针 和 类 型 信息 联系 
起 来 ， 这 样 就 可 以 根据 指针 值 的 类 型 ， 生 成 不 同 的 机 器 级 代码 来 访问 存储 在 指针 所 指向 位 置 
处 的 值 。 尽 管 C 编译 器 维护 着 这 个 类 型 信息 ， 但 是 它 生 成 的 实际 机 器 级 程序 并 不 包含 关于 数 
据 类 型 的 信息 。 每 个 程序 对 象 可 以 简单 地 视 为 一 个 字 节 块 ， 而 程序 本 身 就 是 一 个 字 节 序列 。 
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EEC 语言 中 指针 的 作用 

指针 是 C 语言 的 一 个 重要 特性 。 它 提供 了 引用 数据 结构 (包括 数组 ) 的 元 素 的 机 制 。 
与 变量 类 似 ， 指 针 也 有 两 个 方面 : 值 和 类 型 。 它 的 值 表示 某 个 对 象 的 位 置 ， 而 它 的 类 型 
表示 那个 位 置 上 所 存储 对 象 的 类 型 (比如 整数 或 者 浮 点 数 )。 ) 

真正 理解 指针 需要 查看 它们 在 机 器 级 上 的 表示 以 及 实现 。 这 将 是 第 3 章 的 重点 之 
一 ，3. 10. 1 节 将 对 其 进行 深入 介绍 。 


2.1.1 十 六 进 制 表示 法 


一 个 字 节 由 8 位 组 成 。 在 二 进 制 表示 法 中 ， 它 的 值 域 是 00000000: 一 11111111。 。 如 宁 看 
成 十 进 制 整数 ， 它 的 值 域 就 是 0 一 255 。 两 种 符号 表示 法 对 于 描述 位 模式 来 说 都 不 是 非 浓 
方便 。 二 进 制 表示 法 太 元 长 ， 而 十 进 制 表 示 法 与 位 模式 的 互相 转化 很 麻烦 。 蔡 代 的 方法 是 ， 
以 16 为 基数 ， 或 者 叫做 十 六 进 制 (hexadecimal) 数 ,来 表示 位 模式 。 十 六 进 制 ( 人 简写 为 “hex”) 
使 用 数字 “0 ”一 “9” 以 及 字符 “A” 一 “F” 来 表示 16 个 可 能 的 值 。 图 2-2 展示 了 16 个 十 
六 进 制 数字 对 应 的 十 进 制 值 和 二 进 制 值 。 用 十 六 进 制 书写 ， 一 个 字 节 的 值 域 为 0016 一 FFis 。 


十 六 进 制 数字 0 2 3 4 5 6 7 
十 进 制 值 7 
二 进 制 全 0000 0010 0011 0100 0101 0110 0111 


十 六 进 制 数字 
十 进 制 值 
二 进 制 值 1000 1001 1010 1011 1100 1101 1110 


图 2-2 十 六 进 制 表示 法 。 每 个 十 六 进 制 数字 都 对 16 个 值 中 的 一 个 进行 了 编码 


在 C 语 言 中 ， 以 0x 或 0x 开头 的 数字 常量 被 认为 是 十 六 进 制 的 值 。 字 符 “A” 一 “FEF? 
既 可 以 是 大 写 ， 也 可 以 是 小 写 。 例 如 ， 我 们 可 以 将 数字 FA1D37Bis 写作 0xFA1D37B， 或 者 
0xfald37b， 其 至 是 大 小 写 混合 ， 比 如 ，0xFalD37b。 在 本 书 中 ， 我 们 将 使 用 C 表示 法 来 
表示 十 六 进 制 值 。 

编写 机 表 级 程序 的 一 个 常见 任务 就 是 在 位 模式 的 十 进 制 、 二 进 制 和 十 六 进 制 表示 之 间 
人 工 转换 。 二 进 制 和 十 六 进 制 之 间 的 转换 比较 简单 直接 ， 因 为 可 以 一 次 执行 一 个 十 六 进 制 
数字 的 转换 。 数 字 的 转换 可 以 参考 如 图 2-2 所 示 的 表 。 一 个 简单 的 窃 门 是 ， 记 住 十 六 进 制 
数字 A、C 和 下 相应 的 十 进 制 值 。 而 对 于 把 十 六 进 制 值 B、D 和 下 转换 成 十 进 制 值 ， 则 可 
以 通过 计算 它们 与 前 三 个 值 的 相对 关系 来 完成 。 

比如 ， 假 设 给 你 一 个 数字 0x173RA4C。 可 以 通过 展开 每 个 十 六 进 制 数字 ， 将 它 转 换 为 
二 进 制 格式 ， 如 下 所 示 : 

十 六 进 制 1 7 3 A 4 区 

二 进 制 0001 0111 0011 1010 0100 1100 

这 样 就 得 到 了 二 进 制 表示 000101110011101001001100。 

反 过 来 ， 如 果 给 定 一 个 二 进 制 数 字 1111001010110110110011， 可 以 通过 首先 把 它 分 为 
每 4 位 一 组 来 转换 为 十 六 进 制 。 不 过 要 注意 ， 如 果 位 总 数 不 是 4 的 倍数 ， 最 左边 的 一 组 可 
以 少 于 4 位 ， 前 面 用 0 补足 。 然 后 将 每 个 4 位 组 转换 为 相应 的 十 六 进 制 数字 : 

二 进 制 11 1100 1010 Yo 1011 0011 

十 六 进 制 3 a A D B 3 


蕊 驴 练习 题 2. 1 完成 下 面 的 数字 转换 : 
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A. 将 0x39A7F8 转换 为 二 进 制 。 

B. 将 三 进 制 1100100101111011 转换 为 十 六 进 制 。 

C. 将 0xD5E4C 转换 为 二 进 制 。 

D. 将 二 进 制 1001101110011110110101 转换 为 十 六 进 制 。 

当 值 x 是 2 的 非 负 整 数 浆 次 过 时 ， 也 就 是 zx= 王 2"， 我 们 可 以 很 容易 地 将 x 写成 十 六 进 
制 形式 ， 只 要 记 住 zx 的 二 进 制 表示 就 是 1 后 面 跟 n 个 0。 十 六 进 制 数 字 0 代表 4 个 二 进 制 
0。 所 以 ， 当 nn 表示 成 i 十 4 的 形式 ， 其 中 0 二 13， 我 们 可 以 把 xz 写成 开头 的 十 六 进 制 数 
字 为 1(i=0)、2(i= 二 1)、4(i==2) 或 者 8(i=3)， 后面 跟随 着 ) 个 十 六 进 制 的 0。 比 如 ，z= 
2048 二 24 ， 我 们 有 n= 二 11 二 3 十 4，。2， 从 而 得 到 十 六 进 制 表 示 0x800。 
练习 题 2.2 填写 下 表 中 的 空白 项 ， 给 出 2 的 不 同 次 办 的 二 进 制 和 十 六 进 制 表 示 : 

2" (十 六 进 制 ) 


nn 
| 
| 
| | 
a 
| 委 | 
et 
L 





十 进 制 和 十 六 进 制 表示 之 间 的 转换 需要 使 用 乘法 或 者 除法 来 处 理 一 般 情 况 。 将 一 个 十 
进 制 数字 zx 转换 为 十 六 进 制 ， 可 以 反复 地 用 16 除 zx， 得 到 一 个 商 g 和 一 个 余数 >， 也 就 是 
x 二 g，16 十 +。 然 后 ， 我 们 用 十 六 进 制 数字 表示 的 7 作为 最 低位 数字 ， 并 且 通 过 对 反复 
进行 这 个 过 程 得 到 剩 下 的 数字 。 例 如 ， 考 虑 十 进 制 314 156 的 转换 : 

314 156 王 19 634。16 十 12 (CC) 
19 634 二 1227。16 十 2 (2) 
1227 二 76。16 十 11 (B) 
76 一 4。16 十 12 CE 

4 一 0。16 十 4 (4) 

从 这 里 ， 我 们 能 读 出 十 六 进 制 表示 为 0x4CB2C。 

反 过 来 ， 将 一 个 十 六 进 制 数字 转换 为 十 进 制 数 字 ， 我们 可 以 用 相应 的 16 的 寡 乘 以 每 
个 十 六 进 制 数字 。 比 如 ， 给 定数 字 0x7aAF， 我 们 计算 它 对 应 的 十 进 制 值 为 7。162 十 10 。 
16 十 15 生 7。256 十 10。16 十 15 王 1792 十 160 十 15 王 1967 。 

训 弓 练习 题 2.3 一 个 字 节 可 以 用 两 个 十 六 进 制 数字 来 表示 。 填 写 下 表 中 缺失 的 项 ， 给 出 

不 同 字 节 模式 的 十 进 制 、 二 进 制 和 十 六 进 制 值 ; 

十 进 制 。 | 二进制 。 | 十 六 进 制 | 










67 
2 


六 ii 
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ES 十 进 制 和 十 六 进 制 间 的 转换 
较 大 数值 的 十 进 制 和 十 六 进 制 之 间 的 转换 ， 最 好 是 让 计算 机 或 者 计算 器 来 完成 。 有 大 
量 的 工具 可 以 完成 这 个 工作 。 一 个 简单 的 方法 就 是 利用 任何 标准 的 搜索 引擎 ， 比 如 查询 : 
把 0xabcd 转换 为 十 进 制 数 
或 
把 123 用 十 六 进 制 表示 。 


证 缠 练习 题 2.4 不 将 数字 转换 为 十 进 制 或 者 二 进 制 ， 试 着 解答 下 面 的 算术 题 ， 答 案 要 用 
十 六 进 制 表示 。 提 示 : 只 要 将 执行 十 进 制 加 法 和 减法 所 使 用 的 方法 改 成 以 16 为 基数 。 
A. 0x503c+0x8= 
B. 0x503c-0x40= 
C. 0x503c+64= 
D. Ox50ea-0x503c= 


2. 1.2 字数 据 大 小 


每 台 计 算 机 都 有 一 个 字 长 (word size)， 指 明 指 针 数 据 的 标 称 大 小 (nominal size)。 因 为 
虚拟 地 址 是 以 这 样 的 一 个 字 来 编码 的 ， 所 以 字 长 决定 的 最 重要 的 系统 参数 就 是 虚拟 地 址 空 
间 的 最 大 大 小 。 也 就 是 说 ， 对 于 一 个 字 长 为 双 位 的 机 器 而 言 ， 虚 拟 地 址 的 范围 为 0 一 六 一 1， 
程序 最 多 访问 2” 个 字 节 。 

最 近 这 些 年 ， 出 现 了 大 规模 的 从 32 位 字 长 机 器 到 64 位 字 长 机 器 的 迁移 。 这 种 情况 首先 出 
现在 为 大 型 科学 和 数据 库 应 用 设计 的 高 端 机 器 上 ， 之 后 是 台式 机 和 笔记 本 电脑 ， 最 近 则 出 现在 
智能 手机 的 处 理 器 上 。32 位 字 长 限制 虚拟 地 址 空间 为 4 千 兆 字 节 (写作 4GB)， 也 就 是 说 ， 刚 刚 
超过 4X10? 字 节 。 扩 展 到 64 位 字 长 使 得 虚拟 地 址 空间 为 16EB， 大 约 是 1. 84 久 10 字 贡 。 

大 多 数 64 位 机 器 也 可 以 运行 为 32 位 机 器 编译 的 程序 ， 这 是 一 种 向 后 兼容 。 因 此 ， 举 
例 来 说 ， 当 程序 prog.c 用 如 下 伪 指 令 编 译 后 


linux> gcc -m32 prog.c 


该 程序 就 可 以 在 32 位 或 64 位 机 器 上 正确 运 
行 。 另 一方 面 ， 若 程序 用 下 述 伪 指令 编译 


linux> gcc -m64 prog.c 
那 就 只 能 在 64 位 机 器 上 运行 。 因 此 ， 我 
们 将 程序 称 为 “32 位 程序 ”或 “64 位 程 
序 ” 时 ， 区 别 在 于 该 程序 是 如 何 编译 的 ， 
而 不 是 其 运行 的 机 硕 类 型 。 

计算 机 和 编译 器 支持 多 种 不 同方 式 编 
码 的 数字 格式 ， 如 不 同 长 度 的 整数 和 浮 点 
数 。 比 如 ， 许 多 机 器 都 有 处 理 单 个 字 节 的 
指令 ， 也 有 处 理 表示 为 2 字 节 、4 字 节 或 
者 8 字 节 整数 的 指令 ， 还 有 些 指令 支持 表 
示 为 4 字 节 和 8 字 节 的 浮 点 数 。 






ge 图 2-3 基本 C 数据 类 型 的 典型 大 小 (以 字 节 为 单位 )。 
C 语言 支持 整数 和 浮 点 数 的 多 种 数据 分 配 的 字 节 数 受 程序 是 如 何 编译 的 影响 而 变化 。 


格式 。 图 2-3 展示 了 为 C 语言 各 种 数据 类 本 图 给 出 的 是 32 位 和 64 位 程序 的 典型 值 
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型 分 配 的 字 节 数 。( 我 们 在 2. 2 节 讨 论 C 标准 保证 的 字 节 数 和 典型 的 字 节 数 之 间 的 关系 。) 
有 些 数据 类 型 的 确切 字 节 数 依赖 于 程序 是 如 何 被 编译 的 。 我 们 给 出 的 是 32 位 和 64 位 程序 
的 典型 值 。 整 数 或 者 为 有 符号 的 ， 即 可 以 表示 负数 、 零 和 正 数 ; 或 者 为 无 符号 的 ， 即 只 能 
表示 非 负 数 。C 的 数据 类 型 char 表示 一 个 单独 的 字 节 。 尽 管 “char” 是 由 于 它 被 用 来 存 
储 文本 串 中 的 单个 字符 这 一 事实 而 得 名 ， 但 它 也 能 被 用 来 存储 整数 值 。 数 据 类 型 short、 
int 和 long 可 以 提供 各 种 数据 大 小 。 即 使 是 为 64 位 系统 编译 ， 数 据 类 型 int 通常 也 只 有 
4 个 字 节 。 数 据 类 型 1ong 一 般 在 32 位 程序 中 为 4 字 节 ， 在 64 位 程序 中 则 为 8 字 节 。 

为 了 避免 由 于 依赖 “典型 ”大 小 和 不 同 编译 器 设置 带 来 的 奇怪 行为 ，ISO C99 引入 了 
一 类 数据 类 型 ， 其 数据 大 小 是 固定 的 ， 不 随 编译 器 和 机 器 设置 而 变化 。 其 中 就 有 数据 类 型 
int32 七 和 int64 t， 它 们 分 别 为 4 个 字 节 和 8 个 字 节 。 使 用 确定 大 小 的 整数 类 型 是 程序 
员 准 确 控制 数据 表示 的 最 佳 途 径 。 

大 部 分 数据 类 型 都 编码 为 有 符号 数值 ， 除 非 有 前 缀 关键 字 unsigned 或 对 确定 大 小 的 
数据 类 型 使 用 了 特定 的 无 符号 声明 。 数 据 类 型 char 是 一 个 例外 。 尽 管 大 多 数 编译 器 和 机 
能 将 它们 视 为 有 符号 数 ， 但 C 标准 不 保证 这 一 点 。 相 反 ， 正 如 方 插 号 指示 的 那样 ， 程 序 员 
应 该 用 有 符号 字符 的 声明 来 保证 其 为 一 个 字 节 的 有 符号 数值 。 不 过 ， 在 很 多 情况 下 ， 程序 
行为 对 数据 类 型 char 是 有 符号 的 还 是 无 符号 的 并 不 敏感 。 

对 关键 字 的 顺序 以 及 包括 还 是 省 略 可 选 关 键 字 来 说 ，C 语言 允许 存在 多 种 形式 。 比 
如 ， 下 面 所 有 的 声明 都 是 一 个 意思 : 

unsigned long 

unsigned long int 

long unsigned 


long unsigned int 


我 们 将 始终 使 用 图 2-3 给 出 的 格式 。 

图 2-3 还 展示 了 指针 (例如 一 个 被 声明 为 类 型 为 “char * ”的 变量 ) 使 用 程序 的 全 字 
长 。 大 多 数 机 需 还 文 持 两 种 不 同 的 浮上 点 数 格 式 : 单 精 度 ( 在 C 中 声明 为 float) 和 双 精 度 
(在 C 中 声明 为 double)。 这 些 格式 分 别 使 用 4 字 节 和 8& 字 节 。 


和 6 是 二 让 = 这 上 冰 :声明 指针 
对 于 任何 数据 类 型 工 ， 声 明 
T *p; 


表明 Pp 是 一 个 指针 变量 ， 指向 一 个 类 型 为 本 的 对 象 。 例如 ， 


char *p; 
就 将 一 个 指针 声明 为 指向 一 个 char 类 型 的 对 象 。 


程序 员 应 该 力图 使 他 们 的 程序 在 不 同 的 机 器 和 编译 器 上 可 移植 。 可 移植 性 的 一 个 方面 就 
是 使 程序 对 不 同 数据 类 型 的 确切 大 小 不 敏感 。C 语言 标准 对 不 同 数据 类 型 的 数字 范围 设置 了 
下 界 ( 这 点 在 后 面 还 将 讲 到 )， 但 是 却 没 有 上 界 。 因 为 从 1980 年 左右 到 2010 年 左右 ，32 位 机 
秀和 32 位 程序 是 主流 的 组 合 ， 许 多 程序 的 编写 都 假设 为 图 2-3 中 32 位 程序 的 字 节 分 配 。 随 
着 64 位 机 顺 的 日 益 普 及 ， 在 将 这 些 程序 移植 到 新 机 器 上 时 ， 许 多 隐藏 的 对 字 长 的 依赖 性 就 
会 显现 出 来 ， 成 为 错误 。 比 如 ， 许 多 程序 员 假 设 一 个 声明 为 int 类 型 的 程序 对 象 能 被 用 来 存储 
一 个 指针 。 这 在 大 多 数 32 位 的 机 器 上 能 正常 工作 ， 但 是 在 一 台 64 位 的 机 器 上 却 会 导致 问题 。 
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2. 1.3 寻 址 和 字 节 顺序 


对 于 跨越 多 字 节 的 程序 对 象 ， 我 们 必须 建立 两 个 规则 : 这 个 对 象 的 地 址 是 什么 ， 以 及 
在 内 存 中 如 何 排 列 这 些 字 节 。 在 几乎 所 有 的 机 器 上 ， 多 字 节 对 象 都 被 存储 为 连续 的 字 节 序 
列 ， 对 象 的 地 址 为 所 使 用 字 节 中 最 小 的 地 址 。 例 如 ， 假 设 一 个 类 型 为 int 的 变量 x 的 地 址 
为 0x100， 也 就 是 说 ， 地 址 表达 式 sx 的 值 为 0x100。 那 么 ，( 假 设 数据 类 型 int 为 32 位 表 
示 )x 的 4 个 字 节 将 被 存储 在 内 存 的 0x100、0x101、0x102 和 0x103 位 置 。 

排列 表示 一 个 对 象 的 字 节 有 两 个 通用 的 规则 。 考 虑 一 个 多 位 的 整数 ， 其 位 表示 为 Lx 1， 
Xxw-2，*"…，ZX1，Xo」]， 其 中 x,_1 是 最 高 有 效 位 ， 而 xo 是 最 低 有 效 位 。 假 设 双 是 8 的 倍数 ， 这 
些 位 就 能 被 分 组 成 为 字 节 ， 其 中 最 高 有 效 字 节 包含 位 [zl ，ze-z，…，xzu-s]， 而 最 低 有 效 
字 节 包含 位 Lz ，z，…，z， 其 他 字 节 包含 中 间 的 位 。 某 些 机 器 选择 在 内 存 中 按照 从 最 低 
有 效 字 节 到 最 高 有 效 字 节 的 顺序 存储 对 象 ， 而 另 一 些 机 器 则 按照 从 最 高 有 效 字 节 到 最 低 有 效 
字 节 的 顺序 存储 。 前 一 种 规则 一 一 最 低 有 效 字 节 在 最 前 面 的 方式 ， 称 为 小 端 法 (little endian) 。 
后 一 种 规则 一 一 最 高 有 效 字 节 在 最 前 面 的 方式 ， 称 为 大 端 法 (big endian) 。 

假设 变量 x 的 类 型 为 int， 位 于 地 址 0x100 处 ， 它 的 十 六 进 制 值 为 0x01234567。 地 
址 范围 0x100~ 0x103 的 字 节 顺序 依赖 于 机 器 的 类 型 ; 


大 端 法 





Ox100 0x101 0x102 X10Q3 
注意 ， 在 字 0x01234567 中 ， 高 位 字 节 的 十 六 进 制 值 为 0x01， 而 低位 字 节 值 为 0x67。 
大 多 数 Intel 兼容 机 都 只 用 小 端 模式 。 另 一 方面 ，IBM 和 Oracle( 从 其 2010 年 收购 
Sun Microsystems 开始 ) 的 大 多 数 机 器 则 是 按 大 端 模 式 操 作 。 注 意 我 们 说 的 是 “大 多 数 ”。 
这 些 规则 并 没有 严格 按照 企业 界限 来 划分 。 比 如 ，IBM 和 Oracle 制造 的 个 人 计算 机 使 用 
的 是 Intel 兼容 的 处 理 右 ， 因 此 使 用 小 端 法 。 许 多 比较 新 的 微 处 理 器 是 双 端 法 (bi-endian)， 
也 就 是 说 可 以 把 它们 配置 成 作为 大 端 或 者 小 端的 机 器 运行 。 然 而 ， 实 际 情况 是 : 一 旦 选择 
了 特定 操作 系统 ， 那 么 字 节 顺序 也 就 固定 下 来 。 比 如 ， 用 于 许多 移动 电话 的 ARM 微 处 理 
船 ， 其 人 硬件 可 以 按 小 端 或 大 端 两 种 模式 操作 ， 但 是 这 些 芯片 上 最 常见 的 两 种 操作 系统 一 一 
Android( 来 自 Google) 和 IOS( 来 自 Apple) 却 只 能 运行 于 小 端 模 式 ， 

令 人 吃惊 的 是 ， 在 哪 种 字 节 顺序 是 合适 的 这 个 问题 上 ， 人 们 表现 得 非常 情绪 化 。 实 际 
上 ， 术 语 “little endian( 小 端 )” 和 “big endian( 大 端 )” 出 自 Jonathan Swift 的 《 格 利 佛 游 
记 》(Gulliver”’s Travels) 一 书 ， 其 中 交战 的 两 个 派别 无 法 就 应 该 从 哪 一 端 ( 小 端 还 是 大 端 ) 
打开 一 个 半熟 的 鸡蛋 达成 一 致 。 就 像 鸡 蛋 的 问题 一 样 ， 选 择 何 种 字 节 顺序 没有 技术 上 的 理 
由 ， 因 此 争论 沦 为 关于 社会 政治 论题 的 争论 。 只 要 选择 了 一 种 规则 并 且 始 终 如 一 地 坚持 ， 
对 于 哪 种 字 节 排序 的 选择 都 是 任意 的 。 


国 习 “ 端 ” 的 起 源 


以 下 是 Jonathan Swift 在 1726 年 关于 大 小 端 之 争 历史 的 描述 
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ea 我 下 面 要 告诉 你 的 是 ，Lilliput 和 Blefuscu 这 两 大 强国 在 过 去 36 个 月 里 一 直 
在 苦战 。 战 争 开 始 是 由 于 以 下 的 原因 : 我 们 大 家 都 认为 ， 吃 鸡蛋 前 ， 原 始 的 方法 是 打破 
鸡蛋 较 大 的 一 端 ， 可 是 当今 皇帝 的 祖父 小 时 候 吃 鸡蛋 ， 一 次 按 古 法 打 鸡 蛋 时 碰巧 将 一 个 
手指 弄 破 了 ， 因 此 他 的 父亲 ， 当 时 的 皇帝 ， 就 下 了 一 道 救 令 ,命令 全 体 臣 民 吃 鸡蛋 时 打 
破 鸡 蛋 较 小 的 一 端 ， 违 令 者 重 罚 。 老 百姓 们 对 这 项 命令 极为 反感 。 历 史 告 诉 我 们 ， 由 此 
曾 发 生 过 六 次 叛乱 ， 其 中 一 个 皇帝 送 了 命 ， 另 一 个 和 对 了 王位 。 这 些 产 乱 大 多 都 是 由 Ble- 
fuscu 的 国王 大 臣 们 炉 动 起 来 的 。 叛 乱 平息 后 ， 流 亡 的 人 总 是 逃 到 那个 帝国 去 寻 救 避难 ，。 
据 估 计 ， 先 后 几 次 有 11 000 人 情愿 受 死 也 不 肯 去 打破 鸡蛋 较 小 的 一 端 。 关 于 这 一 争端 ， 
曾 出 版 过 几 百 本 大 部 著作 ， 不 过 大 端 派 的 书 一 直 是 受 禁 的 ， 法 律 也 规定 该 派 的 任何 人 不 
得 做 官 。”( 此 段 译文 摘自 网 上 蒋 剑 锋 译 的 人 《 格 利 佛 游记 》 第 一 卷 第 4 章 。) 

在 他 那个 时 代 ，Swift 是 在 讽刺 英国 (Lilliput) 和 法 国 (Blefuscu) 之 间 持 续 的 冲突 。 
Danny Cohen， 一 位 网 络 协 议 的 早期 开创 者 ， 第 一 次 使 用 这 两 个 术语 来 指 代 字 节 顺序 
[24]， 后 来 这 个 术语 被 广泛 接纳 了 。 


对 于 大 多 数 应 用 程序 员 来 说 ， 其 机 器 所 使 用 的 字 节 顺序 是 完全 不 可 见 的 。 无 论 为 哪 种 
类 型 的 机 器 所 编译 的 程序 都 会 得 到 同样 的 结果 。 不 过 有 时 候 ， 字 节 顺 序 会 成 为 问题 。 首 先 
是 在 不 同类 型 的 机 器 之 间 通 过 网 络 传送 二 进 制 数据 时 ， 一 个 常见 的 问题 是 当 小 端 法 机 顺产 
生 的 数据 被 发 送 到 大 端 法 机 器 或 者 反 过 来 时 ， 接 收 程 序 会 发 现 ， 字 里 的 字 节 成 了 反 序 的 。 
为 了 避免 这 类 问题 ， 网 络 应 用 程序 的 代码 编写 必须 遵守 已 建立 的 关于 字 节 顺序 的 规则 ， 以 
确保 发 送 方 机 器 将 它 的 内 部 表示 转换 成 网 络 标准 ， 而 接收 方 机 器 则 将 网 络 标准 转换 为 它 的 
内 部 表示 。 我 们 将 在 第 11 章 中 看 到 这 种 转换 的 例子 。 

第 二 种 情况 是 ， 当 阅读 表示 整数 数据 的 字 节 序列 时 字 节 顺序 也 很 重要 。 这 通常 发 生 在 
检查 机 器 级 程序 时 。 作 为 一 个 示例 ， 从 某 个 文件 中 摘出 了 下 面 这 行 代码 ， 该 文件 给 出 了 一 
个 针对 Intel x86-64 处 理 需 的 机 需 级 代码 的 文本 表示 : 

4004d3: 01 05 43 Ob 20 00 add heax, Ox200b43 (%rip) 


这 一 行 是 由 反 汇 编 器 (disassembler) 生 成 的 ， 反 汇编 器 是 一 种 确定 可 执行 程序 文件 所 表示 
的 指令 序列 的 工具 。 我 们 将 在 第 3 章 中 学 习 有 关 这 些 工具 的 更 多 知识 ， 以 及 怎样 解释 像 这 
样 的 行 。 而 现在 ， 我 们 只 是 注意 这 行 表 述 的 意思 是 : 十 六 进 制 字 节 串 01 05 43 0b 20 00 是 
一 条 指令 的 字 节 级 表示 ， 这 条 指令 是 把 一 个 字 长 的 数据 加 到 一 个 值 上 ， 该 值 的 存储 地 址 由 
0x200b43 加 上 当前 程序 计数 器 的 值得 到 ， 当 前 程序 计数 器 的 值 即 为 下 一 条 将 要 执行 指令 
的 地 址 。 如 果 取 出 这 个 序列 的 最 后 4 个 字 节 : 43 0b 20 00， 并 且 按 照相 反 的 顺序 写 出 ， 我 
们 得 到 00 20 0b 43。 去 掉 开 头 的 0， 得 到 值 0x200b43， 这 就 是 右边 的 数值 。 当 阅读 像 此 
类 小 端 法 机 器 生成 的 机 器 级 程序 表示 时 ， 经 常会 将 字 节 按照 相反 的 顺序 显示 。 书 写字 节 序 
列 的 自然 方式 是 最 低位 字 节 在 左边 ， 而 最 高 位 字 节 在 右边 ， 这 正好 和 通常 书写 数字 时 最 高 
有 效 位 在 左边 ， 最 低 有 效 位 在 右边 的 方式 相反 。 

字 节 顺序 变 得 重要 的 第 三 种 情况 是 当 编 写 规避 正常 的 类 型 系统 的 程序 时 。 在 C 语言 
中 ， 可 以 通过 使 用 强制 类 型 转换 (cast) 或 联合 (union) 来 允许 以 一 种 数据 类 型 引用 一 个 对 
象 ， 而 这 种 数据 类 型 与 创建 这 个 对 象 时 定义 的 数据 类 型 不 同 。 大 多 数 应 用 编程 都 强烈 不 推 
荐 这 种 编码 技巧 ， 但 是 它们 对 系统 级 编程 来 说 是 非常 有 用 ， 甚 至 是 必需 的 。 

图 2-4 展示 了 一 段 C 代码 ， 它 使 用 强制 类 型 转换 来 访问 和 打印 不 同 程序 对 象 的 字 节 表 
示 。 我 们 用 typedef 将 数据 类 型 pyte pointer 定义 为 一 个 指 问 类 型 为 “unsigned 
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char” 的 对 和 象 的 指针 。 这 样 一 个 字 节 指针 引用 一 个 字 节 序列 ， 其 中 每 个 字 节 都 被 认为 是 一 
个 非 负 整数 。 第 一 个 例 程 show_bytes 的 输入 是 一 个 字 节 序列 的 地 址 ， 它 用 一 个 字 节 指针 
以 及 一 个 字 节 数 来 指示 。 该 字 节 数 指定 为 数据 类 型 size 上， 表示 数据 结构 大 小 的 首选 数 
据 类 型 。show_bytes 打印 出 每 个 以 十 六 进 制 表示 的 字 节 。C 格式 化 指令 “%.2x” 表 明 整 
数 必 须 用 至 少 两 个 数字 的 十 六 进 制 格式 输出 。 


#include <stdio.h> 


typedef unsigned char *byte_pointer; 


void show_bytes(byte_pointer start, size_t len) { 
Size_t i; 
for (i = 0; i < len; i++) 
printfl" W. ox sbartlil] 3 
printf("\n"); 
} 


void show_int(int x) 1{ 
show_bytes((byte_pointer) &x, sizeof (int)); 
} 


void show_float(float x) 荆 
show_bytes((byte_pointer) &x, sizeof (float)); 
上 


void show_pointer(void *x) { 
show_bytes((byte_pointer) &x, sizeof (void *)); 
} 





图 2-4 打印 程序 对 象 的 字 节 表示 。 这 段 代 码 使 用 强制 类 型 转换 来 规避 类 型 系统 。 
很 容易 定义 针对 其 他 数据 类 型 的 类 似 函 数 


过 程 show _ int、show float 和 show pointer 展示 了 如 何 使 用 程序 show bytes 来 
分 别 输出 类 型 为 int、float 和 void * 的 CC 程序 对 象 的 字 节 表示 。 可 以 观察 到 它们 仅仅 
传递 给 show bytes 一 个 指 回 它们 参数 x 的 指针 gx， 且 这 个 指针 被 强制 类 型 转换 为 “un - 
signed chdr * ”。 这 种 强制 类 型 转换 告诉 编译 器 ， 程 序 应 该 把 这 个 指针 看 成 指向 一 个 字 
节 序 列 ， 而 不 是 指向 一 个 原始 数据 类 型 的 对 象 。 然 后 ， 这 个 指针 会 被 看 成 是 对 象 使 用 的 最 
低 字 节 地 址 。 

这 些 过 程 使 用 C 语言 的 运算 符 sizeof 来 确定 对 象 使 用 的 字 节 数 。 一 般 来 说 ， 表 达 式 
sizeof(T) 返 回 存储 一 个 类 型 为 工 的 对 象 所 需要 的 字 节 数 。 使 用 sizeof 而 不 是 一 个 固定 
的 仁 ， 是 向 编写 在 不 同 机 上 需 类 型 上 可 移植 的 代码 迈进 了 一 步 。 

在 几 种 不 同 的 机 磊 上 运行 如 图 2-5 所 示 的 代码 ， 得 到 如 图 2-6 所 示 的 结果 。 我 们 使 用 
了 以 下 几 种 机 天 : 

Linux 32， 运行 Linux 的 Intel IA32 处 理 器 。 

Windows: 运行 Windows 的 Intel IA32 处 理 器 。 

Sun: 运行 Solaris 的 Sun Microsystems SPARC 处 理 器 。 (这些 机 器 现在 由 Oracle 生产 ,) 

Linux 64: 运行 Linux 的 Intel x86-64 处 理 器 。 
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code/data/show-bytes.c 
void test_show_bytes(int val) { 


1 

2 int ival = val; 

3 float fval = (float) ival; 
4 int *pval = &ival; 

5 show_int(ival) ; 

6 show_float (fval); 

7 show_pointer (pval); 

8 


code/data/show-bytes.c 
图 2-5 字 节 表示 的 示例 。 这 段 代码 打印 示例 数据 对 象 的 字 节 表示 


Linux 32 39 30 00 00 
Windows 39 30 00 00 
00 00 30 39 
39 30 00 00 


Linux 32 12 345.0 00 e440 46 


Windows 12 345.0 00 e4 40 46 
12 345.0 46 40 e4 00 
12 345.0 00 e4 40 46 


e4 £f9 ff bf 
b4 cc 22 00 
ef ff fa Oc 
b8 11 e5 ff ££f 7£ 00 00 


图 2-6 不 同 数 据 值 的 字 节 表示 。 除 了 字 节 顺序 以 外 ，int 和 float 的 结果 是 一 样 的 。 指 针 值 与 机 器 相关 


参数 12 345 的 十 六 进 制 表示 为 0x00003039。 对 于 int 类 型 的 数据 ， 除 了 字 节 顺序 以 
外 ， 我 们 在 所 有 机 器 上 都 得 到 相同 的 结果 。 特 别 地 ， 我 们 可 以 看 到 在 Linux 32、Windows 
和 Linux 64 上 ， 最 低 有 效 字 节 值 0x39 最 先 输 出 ， 这 说 明 它 们 是 小 端 法 机 器 ， 而 在 Sun 上 
最 后 输出 ， 这 说 明 Sun 是 大 端 法 机 器 。 同 样 地 ，float 数据 的 字 节 ， 除 了 字 节 顺序 以 外 ， 
也 都 是 相同 的 。 另 一 方面 ， 指 针 值 却 是 完全 不 同 的 。 不 同 的 机 器 /操作 系统 配置 使 用 不 同 
的 存储 分 配 规则 。 一 个 值得 注意 的 特性 是 Linux 32、Windows 和 Sun 的 机 峰 使 用 4 字 节 
地 址 ， 而 Linux 64 使 用 8 字 节 地 址 。 


四 EEE 使 用 typedef 来 命名 数据 类 型 

C 语言 中 的 typedef 声明 提供 了 一 种 给 数据 类 型 命名 的 方式 。 这 能 够 极 大 地 改善 代 
码 的 可 读 性 ， 因 为 深度 嵌 套 的 类 型 声明 很 难 读 懂 。 

typedef 的 语法 与 声明 变量 的 语法 十 分 相像 ， 除 了 它 使 用 的 是 类 型 名 ， 而 不 是 变量 
名 。 因 此 ， 图 2-4 中 byte pointer 的 声明 和 将 一 个 变量 声明 为 类 型 “unsigned char 
* ”有 相同 的 形式 。 

例如 ， 声 明 : 


typedef int *int_pointer; 
int_pointer ip; 





将 类 型 “int pointer” 定 义 为 一 个 指向 int 的 指针 ， 并 且 声 明了 一 个 这 种 类 型 的 
变量 ip。 我 们 还 可 以 将 这 个 变量 直接 声明 为 : 
int *ip; 
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给 C 语言 初学 者 6 二 = 才 9 话 汪汪 使 用 Printf 格式 化 输出 

printf 函数 (还 有 它 的 同类 fprintf 和 sprintf) 提 供 了 一 种 打印 信息 的 方式 ， 这 
种 方式 对 格式 化 细节 有 相当 大 的 控制 能 力 。 第 一 个 参数 是 格式 串 (format string)， 而 其 
余 的 参数 都 是 要 打印 的 值 。 在 格式 串 里 ， 每 个 以 “ 祝 开始 的 字符 序列 都 表示 如 何 格式 
化 下 一 个 参数 。 典 型 的 示例 包括 :“%d” 是 输出 一 el 
数 ， 而“%c” 是 输出 一 个 字符 ， 其 编码 由 参数 给 

指定 确定 大 小 数据 类 型 的 格式 ， re 要 更 复杂 一 些 ， 相关 内 容 参 见 2. 2. 3 
节 的 旁 注 。 


可 以 观察 到 ， 尽 管 浮 点 型 和 整 型 数据 都 是 对 数值 12 345 编码 ， 但 是 它们 有 截然 不 同 的 
字 节 模式 : 整 型 为 0x00003039， 而 浮 点 数 为 0x4640E400。 一 般 而 言 ， 这 两 种 格式 使 用 不 
同 的 编码 方法 。 如 果 我 们 将 这 些 十 六 进 制 模 式 扩 展 为 二 进 制 形式 ， 并 且 适 当地 将 它们 移 
位 ， 就 会 发 现 一 个 有 13 个 相 匹配 的 位 的 序列 ， 用 一 串 星 号 标识 出 来 : 
0 0 0 0 3 0 3 9 
00000000000000000011000000111001 
闵 来 来 来 水 水 来 来 来 水 来 来 水 
4 6 4 0 E 4 0 0 
01000110010000001110010000000000 


这 并 不 是 巧合 。 当 我 们 研究 浮 点 数 格式 时 ， 还 将 再 回 到 这 个 例子 。 
C 语言 初学 者 指针 和 数组 


在 函数 show bytes( 图 2-4) 中 ， 我 们 看 到 指针 和 数组 之 间 紧 密 的 联系 ， 这 将 在 3.8 节 
中 详细 描述 。 这 个 函数 有 一 个 类 型 为 pyte pointer( 被 定义 为 一 个 指向 unsigned cha 的 
指针 ) 的 参数 statt， 但 是 我 们 在 第 8 行 上 看 到 数组 引用 start[il]。 在 CC 语言 中 ， 我 们 能 
够 用 数组 表示 法 来 引用 指针 ， 同 时 我 们 也 能 用 指针 表示 法 来 引用 数组 元 素 。 在 这 个 例子 
中 ， 引 用 start [i] 表 示 我 们 想 要 读 取 以 start 指向 的 位 置 为 起 始 的 第 i 个 位 置 处 的 字 节 。 


@; 寺 = 钱 WE 起 洛 ”指针 的 创建 和 间接 引用 


在 图 2-4 的 第 13、17 和 21 行 ， 我 们 看 到 对 C 和 C++ 中 两 种 独 有 操作 的 使 用 。C 的 
“ 取 地 址 ”运算 符 & 创建 一 个 指针 。 在 这 三 行 中 ， 表 达 式 &x 创建 了 一 个 指向 保存 变量 x 的 
位 置 的 指针 。 这 个 指针 的 类 型 取决 于 x 的 类 型 ， 因 此 这 三 个 指针 的 类 型 分 别 为 int*、 
float* 和 void **。( 数 据 类 型 void * 是 一 种 特殊 类 型 的 指针 ， 没 有 相关 联 的 类 型 信息 。) 

强制 类 型 转换 运算 符 可 以 将 一 种 数据 类 型 转换 为 另 一 种 。 因 此 ， 强 制 类 型 转换 
(byte pointer)&x 表明 无 论 指 针 &x 以 前 是 什么 类 型 ， 它 现在 就 是 一 个 指向 数据 类 型 
为 unsigned char 的 指针 。 这 里 给 出 的 这 些 强制 类 型 转换 不 会 改变 真实 的 指针 ， 它 们 
只 是 告诉 编译 器 以 新 的 数据 类 型 来 看 待 被 指向 的 数据 。 


3 生成 一 张 ASCII 表 


可 以 通过 执行 命令 man ascii 来 得 到 一 张 ASCII 字符 码 的 表 。 


让 马 练习 题 2.5 思考 下 面 对 show bytes 的 三 次 调用 : 
int val = Ox87654321; 
byte_pointer valp = (byte_pointer) &val; 
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show_bytes(valp, 1); /* A. */ 
show_bytes(valp, 2); /* B. */ 
show_bytes(valp, 3); /* C. */ 


指出 在 小 端 法 机 器 和 大 端 法 机 器 上 ， 每 次 调用 的 输出 值 。 


A. 小 端 法 : 大 端 法 : 
B. 小 端 法 : 大 端 法 : 
C. 小 端 法 : 大 端 法 : 





EH 练习 题 2.6 使 用 show int 和 show float， 我 们 确定 整数 3510593 的 十 六 进 制 表示 
为 0x00359141， 而 浮 点 数 3510593.0 的 十 六 进 制 表示 为 0x4A564504。 
A. 写 出 这 两 个 十 六 进 制 值 的 二 进 制 表示 。 
B. 移动 这 两 个 二 进 制 串 的 相对 位 置 ， 使 得 它们 相 匹 配 的 位 数 最 多 。 有 多 少 位 相 匹 配 呢 ? 
C. 串 中 的 什么 部 分 不 相 匹 配 ? 


.4 表示 字符 串 


C 语言 中 字符 串 被 编码 为 一 个 以 null( 其 值 为 0) 字符 结尾 的 字符 数组 。 每 个 字符 都 由 
某 个 标准 编码 来 表示 ， 最 常见 的 是 ASCII 字符 码 。 因 此 ， 如 果 我 们 以 参数 “12345” 和 6 
(包括 终止 符 ) 来 运行 例 程 show_bytes， 我 们 得 到 结果 31 32 33 34 35 00。 请 注意 ， 十 进 
制 数字 x 的 ASCII 码 正好 是 0x3x， 而 终止 字 节 的 十 六 进 制 表示 为 0x00。 在 使 用 ASCII 码 
作为 字符 码 的 任何 系统 上 都 将 得 到 相同 的 结果 ， 与 字 节 顺序 和 字 大 小 规则 无 关 。 因 而 ， 文 
本 数据 比 二 进 制 数据 具有 更 强 的 平台 独立 性 。 
民 s 练习 题 2.7 下 面 对 show bytes 的 调用 将 输出 什么 结果 ? 


const char *s = "abcdef"; 
show_bytes((byte_pointer) s, strlen(s)); 


注意 字母 “a” 一 “z” 的 ASCII 码 为 0x61 一 0x7RA。 


ASCII 字符 集 适 合 于 编码 英语 文档 ， 但 是 在 表达 一 些 特殊 字符 方面 并 没有 太 多 办 法 ， 
例如 法 语 的 “C”。 它 完全 不 适合 编码 希腊 语 、 俄 语 和 中 文 等 语言 的 文档 。 这 些 年 ， 提 出 了 
很 多 方法 来 对 不 同 语言 的 文字 进行 编码 。Unicode 联合 会 (Unicode Consortium) 修 订 了 最 全 
面 且 广泛 接受 的 文字 编码 标准 。 当 前 的 Unicode 标准 (7.0 版 ) 的 字库 包括 将 近 100 000 个 字 
符 ， 支 持 广泛 的 语言 种 类 ， 包 括 古 埃及 和 巴比伦 的 语言 。 为 了 保持 信用 ，Unicode 技术 委 
员 会 否决 了 为 Klingon( 即 电视 连续 剧 《 星 际 迷 航 ) 中 的 虚构 文明 ) 编 写 语言 标准 的 提议 。 

基本 编码 ， 称 为 Unicode 的 “统一 字符 集 ”， 使 用 32 位 来 表示 字符 。 这 好 像 要 求 文 
本 串 中 每 个 字符 要 占用 4 个 字 节 。 不 过 ， 可 以 有 一 些 替 代 编 码 ， 常 见 的 字符 只 需要 1 个 
或 2 个 字 节 ， 而 不 太 常 用 的 字符 需要 多 一 些 的 字 节 数 。 特 别 地 ，UTF-8 表示 将 每 个 字符 
编码 为 一 个 字 节 序列 ， 这 样 标准 ASCII 字符 还 是 使 用 和 它们 在 ASCII 中 一 样 的 单字 节 
编码 ， 这 也 就 意味 着 所 有 的 ASCII 字 节 序列 用 ASCII 码 表示 和 用 UTEF-8 表示 是 一 样 的 。 

Java 编程 语言 使 用 Unicode 来 表示 字符 事 。 对 于 C 语 言 也 有 支持 Unicode 的 程序 库 。 


DD 


2. 1.5 表示 代码 
考虑 下 面 的 C 图 数 : 
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1 int sum(int x, int y) { 
return x + y; 
3 


当 我 们 在 示例 机 器 上 编译 时 ， 生 成 如 下 字 节 表示 的 机 器 代码 : 

Linux 32 55 89 e5 8b 45 0c 03 45 08 c9 c3 

Windows 55 89 e5 8b 45 0c 03 45 08 5d c3 

Sun 81 c3 e0 08 90 02 00 09 

Linux 64 55 48 89 e5 89 7d fc 89 75 f8 03 45 fc c9 c3 

我 们 发 现 指令 编码 是 不 同 的 。 不 同 的 机 需 类 型 使 用 不 同 的 且 不 兼容 的 指令 和 编码 方 
式 。 即 使 是 完全 一 样 的 进程 ， 运 行 在 不 同 的 操作 系统 上 也 会 有 不 同 的 编码 规则 ， 因 此 二 进 
制 代 码 是 不 兼容 的 。 二 进 制 代码 很 少 能 在 不 同 机 器 和 操作 系统 组 合 之 间 移 植 。 

计算 机 系统 的 一 个 基本 概念 就 是 ， 从 机 融 的 角度 来 看 ， 程 序 仅 仅 只 是 字 节 序列 。 机 需 
没有 关于 原始 源 程序 的 任何 信息 ， 除 了 可 能 有 些 用 来 帮助 调试 的 辅助 表 以 外 。 在 第 3 章 学 
习 机 器 级 编程 时 ， 我 们 将 更 清楚 地 看 到 这 一 点。 


2. 1.6 布尔 代数 简介 


二 进 制 值 是 计算 机 编码 、 存 储 和 操作 信息 的 核心 ， 所 以 围绕 数值 0 和 1 的 研究 已 经 演化 
出 了 丰富 的 数学 知识 体系 。 这 起 源 于 1850 年 前 后 乔治 ， 布尔 (George Boole，1815 一 1864) 的 
工作 ， 因 此 也 称 为 布尔 代数 (Boolean algebra)。 布 尔 注 意 到 通过 将 逻辑 值 TRUE( 真 ) 和 
FALSE( 假 ) 编 码 为 二 进 制 值 1 和 0， 能 够 设计 出 一 种 代数 ， 以 研究 逻辑 推理 的 基本 原则 。 

最 简单 的 布尔 代数 是 在 二 元 集合 (0，1} 三 pW yr 可 村 本 
基础 上 的 定义 。 图 2-7 定义 了 这 种 布尔 代数 | o11 中 。 0 中 1 0|0 1 
中 的 几 种 运算 。 我 们 用 来 表示 这 些 运算 的 符 L100 :91 11 0 
号 与 C 语 言 位 级 运算 使 用 的 符号 是 相 匹 配 ”图 27 布尔 代数 的 运算 。 二 进 制 值 1 和 0 表示 
的 ， 这 些 将 在 后 面 讨论 到 。 布 尔 运算 ~ 对 应 逻辑 值 TRUE 或 者 FALSE， 而 运算 符 
二 OFT， 在 全 对症 和 汕 用 鹤 浊 一 ~ 、&、| 和 “分 别 表示 逻辑 运算 NOT、 
表示 。 也 就 是 说 ， 当 己 不 是 真 的 时 候 ， 我 AND、OR 和 EXCLUSIVE-OR 
们 就 说 -P 是 真 的 ， 反 之 亦 然 。 相 应 地 ， 当 PP 等 于 0 时 ，~P 等 于 1， 反之 亦 然 。 布 尔 运 算 
&. 对 应 于 逻辑 运算 AND， 在 命题 逻辑 中 用 符号 八 表示。 当 P 和 Q 都 为 真 时 ， 我 们 说 PA 人 
Q 为 真 。 相 应 地 ， 只 有 当 p= 二 1 且 g 二 1 时 ，p&g 才 等 于 1。 布尔 运算 | 对 应 于 人 逻辑 运算 
OR， 在 命题 逻辑 中 用 符号 V 表示 。 当 P 了 或 者 Q 为 真 时 ， 我们 说 PV QQ 成 立 。 相 应 地 ， 当 
pp 二 1 或 者 gq 二 1 时 ，plg 等 于 1。 布 尔 运算 ^ 对 应 于 逻辑 运算 异 或 ， 在 命题 逻辑 中 用 符号 则 
表示 。 当 PP 或 者 Q 为 真 但 不 同时 为 真 时 ， 我 们 说 P 旬 Q 成 立 。 相 应 地 ， 当 p= 二 1 且 g==0， 
或 者 p=0 且 9 二 1 时 ，p “gq 等 于 1。 

后 来 创立 信息 论 领域 的 Claude Shannon(1916 一 2001) 首 先 建立 了 布尔 代数 和 数字 逻辑 
之 间 的 联系 。 他 在 1937 年 的 硕士 论文 中 表明 了 布尔 代数 可 以 用 来 设计 和 分 析 机 电 继 电器 
网 络 。 尽 管 那 时 计算 机 技术 已 经 取得 了 相当 的 发 展 , 但 是 布尔 代数 仍然 在 数字 系统 的 设计 
和 分 析 中 扮演 着 重要 的 角色 。 

我 们 可 以 将 上 述 4 个 布尔 运算 扩展 到 位 向 量 的 运算 ， 位 向 量 就 是 固定 长 度 为 双 、 由 0 
和 1 组 成 的 串 。 位 癌 量 的 运算 可 以 定义 成 参数 的 每 个 对 应 元 素 之 间 的 运算 。 假 设 a 和 2 分 
别 表 示 位 向 量 [as_1，ais_:，…，ao jj] 和 [6。_1，6,_，，…，bo]。 我 们 将 a&b 也 定义 为 一 个 
长 度 为 w 的 位 向 量 ， 其 中 第 i 个 元 素 等 于 aj&b;，0 过 i 二 w。 可 以 用 类 似 的 方式 将 运算 |、… 
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和 ~ 扩展 到 位 同 量 上 。 


举 个 例子 ， 假 设 多 = 二 4， 参 数 a 二 [0110]， 65 二 [1100]。 那 么 4 种 运算 a&b、alb、a…b 
和 ~2 分别 得 到 以 下 结果 : 


0110 0110 0110 
& 1100 | 1100 ~ 1100 ~ 1100 
0100 1110 1010 0011 


证 红 练习 题 2.8 填写 下 表 ， 给 出 位 向 量 的 布尔 运算 的 求 值 结果 。 


[01101001] 
[01010101] 














Ei819 晤 关于 布尔 代数 和 布尔 环 的 更 多 内 容 

对 于 任意 整数 tj 汪 >0， 长 度 为 包 的 位 向 量 上 的 布尔 运算 |、 履 和 ~ 形成 了 一 个 布尔 
代数 。 最 简单 的 情况 是 名 二 1 时 ， 只 有 2 个 元 素 ; 但 是 对 于 更 普遍 的 情况 ， 有 2” 个 长 度 
为 中 的 位 向 量 。 布 尔 代 数 和 整数 算术 运算 有 很 多 相似 之 处 。 例 如 ， 乘 法 对 加 法 的 分 配 
律 ， 写 为 a*(b 十 c) 二 (a，6) 十 (a*，c)， 而 布尔 运算 & 对 | 的 分 配 律 ， 写 为 a&(b|c)= 
(a&b)|(a&c)。 此 外 ， 布 尔 运 算 | 对 必 也 有 分 配 律 ， 写 为 al (b&c)= 二 (a1b)&(alc)， 
但 是 对 于 整数 我 们 不 能 说 a 十 (6b，c) 二 (a 十 6b)，(a 十 c)。 

当 考 虑 长 度 为 包 的 位 向 量 上 的 ~、 取 和 ~ 运算 时 ， 会 得 到 一 种 不 同 的 数学 形式 ， 我 
们 称 为 布尔 环 (Boolean ring)。 布 尔 环 与 整数 运算 有 很 多 相同 的 属性 。 例 如 ， 整 数 运算 
的 一 个 属性 是 每 个 值 工 都 有 一 个 加 法 逆 元 (additive inverse) 一 Tx， 使 得 Xx 十 (一 x) 二 0。 布 
尔 环 也 有 类 似 的 属性 ， 这 里 的 “加 法 ”运算 是 ^， 不 过 这 时 每 个 元 素 的 加 法 逆 元 是 它 自 
己 本 身 。 也 就 是 说 ， 对 于 任何 值 a 来 说，a “a 二 0， 这 里 我 们 用 0 来 表示 全 0 的 位 向 量 。 
可 以 看 到 对 单个 位 来 说 这 是 成 立 的 ， 即 0~0 二 1^1 二 0， 将 这 个 扩展 到 位 向 量 也 是 成 立 
的 。 当 我 们 重新 排列 组 合 顺 序 ， 这 个 属性 也 仍然 成 立 ， 因 此 有 (a*“b)^a 二 5。 这 个 属性 会 
引起 一 些 很 有 趣 的 结果 和 联 明 的 技巧 ， 在 练习 题 2. 10 中 我 们 会 有 所 探讨 。 


位 向 量 一 个 很 有 用 的 应 用 就 是 表示 有 限 集合 。 我 们 可 以 用 位 向 量 [as_1，*…，al，aoJ 
编码 任何 子 集 AC{0，1，…，w 一 1}， 其 中 a; 二 1 当 且 仅 当 i€ A。 例如 ( 记 住 我 们 是 把 
aw_1 写 在 左边 ， 而 将 ao 写 在 右边 )， 位 向 量 a 二 L01101001 ] 表 示 和 集合 A 二 {10，3，5，6)， 
而 5 二 [01010101] 表 示 和 集合 B= 二 {0，2，4，6)。 使 用 这 种 编码 集合 的 方法 ， 布尔 运 算 | 和 
&& 分 别 对 应 于 集合 的 并 和 交 ， 而 ~ 对 应 于 于 集合 的 补 。 还 是 用 前 面 那 个 例子 ,运算 a&b 
得 到 位 向 量 L01000001], 而 A 站 B=={0，6)。 

在 大 量 实际 应 用 中 ， 我 们 都 能 看 到 用 位 向 量 来 对 集合 编码 。 例 如 ， 在 第 8 章 ， 我 们 会 
看 到 有 很 多 不 同 的 信号 会 中 断 程 序 执行 。 我 们 能 够 通过 指定 一 个 位 向 量 掩 码 ， 有 选择 地 使 
能 或 是 屏蔽 一 些 信 和 号， 其 中 某 一 位 位 置 上 为 1 时 ， 表 明 信 号 i 是 有 效 的 (使 能 )， 而 0 表明 
该 信号 是 被 屏蔽 的 。 因 而 ， 这 个 掩 码 表示 的 就 是 设置 为 有 效 信号 的 集合 。 
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证 责 练习 题 2.9 通过 混合 三 种 不 同 颜色 的 光 ( 红 色 、 绿 色 和 蓝 色 )， 计 算 机 可 以 在 视频 愤 
幕 或 者 液 昌 显示 器 上 产生 彩色 的 画面 。 设 想 一 种 简单 的 方法 ， 使 用 三 种 不 同 颜色 的 
光 ， 每 种 光 都 能 打开 或 关闭 ， 投 射 到 玻璃 屏幕 上 ， 如 图 所 示 : 
光源 玻璃 屏幕 





那么 基于 光源 R( 红 )、G( 绿 )、B( 蓝 ) 的 关闭 (0) 或 打开 (1)， 我 们 就 能 够 创建 8 
种 不 同 的 颜色 : 





这 些 颜 色 中 的 每 一 种 都 能 用 一 个 长 度 为 3 的 位 向 量 来 表示 ， 我 们 可 以 对 它们 进行 布尔 运算 。 

A. 一 种 颜色 的 补 是 通过 关 掉 打开 的 光源 ， 且 打开 关闭 的 光源 而 形成 的 。 那 么 上 面 列 
出 的 8 种 颜色 每 一 种 的 补 是 什么 ? 

B. 描述 下 列 颜 色 应 用 布尔 运算 的 结果 : 


蓝 色 绿色 二 
黄色 &. 蓝 绿 色 = 
红色 ^ 红 紫 色 二 


2. 1.7 C 语 言 中 的 位 级 运算 
C 语言 的 一 个 很 有 用 的 特性 就 是 它 支 持 按 位 布尔 运算 。 事 实 上 ， 我 们 在 布尔 运算 中 使 
用 的 那些 符号 就 是 C 语言 所 使 用 的 : | 就 是 OR( 或 )，& 就 是 AND( 与 )，- 就 是 NOT( 取 


反 )， 而 ` 就 是 EXCLUSIVE-OR( 异 或 )。 这 些 运算 能 运用 到 任何 “ 整 型 ”的 数据 类 型 上 ， 
包括 图 2-3 所 示 内 容 。 以 下 是 一 些 对 char 数据 类 型 表达 式 求 值 的 例子 : 


C 的 表达 式 二 进 制 表达 式 


niO&ioiotoiol 
no 1001] [O101 0101] 





正如 示例 说 明 的 那样 ， 确 定 一 个 位 级 表达 式 的 结果 最 好 的 方法 ， 就 是 将 十 六 进 制 的 参 
数 扩展 成 二 进 制 表 示 并 执行 二 进 制 运算 ， 然后 再 转换 回 十 六 进 制 。 
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练习 题 2. 10 ”对 于 任 一 位 向 量 a， 有 a“a 二 0。 应 用 这 一 属性 ， 考 虑 下 面 的 程序 : 
1 void inplace_swap(int *x, int *y) { 

2 *y = *xX ~ *y; /* Step 1 */ 

3 *X = 半 X ~ *y; /* Step 2 */ 

4 *y = *XxX ~ *y; /* Step 3 */ 

5 于 


正如 程序 名 字 所 上 暗示 的 那样 ， 我 们 认为 这 个 过 程 的 效果 是 交换 指针 变量 x 和 y 所 指向 
的 存储 位 置 处 存放 的 值 。 注 意 ,， 与 通常 的 交换 两 个 数值 的 技术 不 一 样 ， 当 移动 一 个 值 
时 ， 我们 不 需要 第 三 个 位 置 来 临时 存储 另 一 个 值 。 这 种 交换 方式 并 没有 性 能 上 的 优 
势 ， 它 仅仅 是 一 个 智力 游戏 。 

以 指针 x 和 vy 指向 的 位 置 存储 的 值 分 别 是 a 和 6 作为 开始 ， 填 写 下 表 ， 给 出 在 程序 的 
每 一 步 之 后 ， 存 储 在 这 两 个 位 置 中 的 值 。 利 用 ^ 的 属性 证 明达 到 了 所 希望 的 效果 。 回 
想 一 下 ， 每 个 元 素 就 是 它 自 身 的 加 法 逆 元 (&^“a 王 0)。 





练习 题 2.11 在 练习 题 2. 10 中 的 inplace swap 函数 的 基础 上 ， 你 决定 写 一 段 代码 ， 

实现 将 一 个 数组 中 的 元 素 头 尾 两 端 依次 对 调 。 你 写 出 下 面 这 个 函数 : 

1 void reverse_array(int a[] ，int cnt) 1 

2 int first, last; 

3 for (first = 0, last = cnt-1; 

4 first <= last; 

5 first++, last—=) 

6 inplace_swap(&a[first], &a[last]):; 

7” 3 

当 你 对 一 个 包含 元 素 1、2、3 和 4 的 数组 使 用 这 个 函数 时 ， 正如 预期 的 那样 ， 现 在 数 

组 的 元 素 变 成 了 4、3、2 和 1。 不 过 ， 当 你 对 一 个 包含 元 素 1、2、3、4 和 5 的 数组 使 

用 这 个 函数 时 ， 你 会 很 惊奇 地 看 到 得 到 数字 的 元 素 为 5、4、0、2 和 1。 实 际 上 ， 你 会 

发 现 这 段 代码 对 所 有 偶数 长 度 的 数组 都 能 正确 地 工作 ,但 是 当 数 组 的 长 度 为 奇数 时 ， 

它 就 会 把 中 间 的 元 素 设 置 成 0。 

A. 对 于 一 个 长 度 为 奇数 的 数组 ， 长 度 cnt 二 2k 十 1， 函 数 reverse array 最 后 一 次 
循环 中 ， 变 量 first 和 last 的 值 分 别 是 什么 ? 

B. 为 什么 这 时 调用 函数 inplace swap 会 将 数组 元 素 设置 为 0? 

C. 对 reverse array 的 代码 做 哪些 简单 改动 就 能 消除 这 个 问题 ? 

位 级 运算 的 一 个 常见 用 法 就 是 实现 掩 码 运算 ， 这 里 掩 码 是 一 个 位 模式 ， 表 示 从 一 个 字 


中 选 出 的 位 的 集合 。 让 我 们 来 看 一 个 例子 ， 掩 码 0xFF( 最 低 的 8 位 为 1) 表示 一 个 字 的 低位 
字 节 。 位 级 运算 x&0xFF 生成 一 个 由 x 的 最 低 有 效 字 节 组 成 的 值 ， 而 其 他 的 字 节 就 被 置 为 
0。 比 如 ， 对 于 x= 0x89ABCDEF， 其 表达 式 将 得 到 0x000000EF。 表 达 式 -0 将 生成 一 个 全 
1 的 掩 码 ， 不 管 机 器 的 字 大 小 是 多 少 。 尽 管 对 于 一 个 32 位 机 器 来 说 ， 同 样 的 掩 码 可 以 写成 
0xFFFFFFFF， 但 是 这 样 的 代码 不 是 可 移植 的 。 


第 2 童 信息 的 表示 和 处 理 39 


证 到 练习 题 2. 12 ”对 于 下 面 的 值 ， 写 出 变量 x 的 C 语言 表达 式 。 你 的 代码 应 该 对 任何 字 
长 w 宇 8 都 能 工作 。 我 们 给 出 了 当 x=0x87654321 以 及 w= 二 32 时 表达 式 求 值 的 结果 ， 
仅 供 参 考 。 

A. xx 的 最 低 有 效 字 节 ， 其 他 位 均 置 为 0。[0x00000021]。 
B. 除了 x 的 最 低 有 效 字 节 外 ， 其 他 的 位 都 取 补 ， 最 低 有 效 字 市 保持 不 变 。 [0x789ABC21]。 
C. x 的 最 低 有 效 字 节 设 置 成 全 1， 其 他 字 节 都 保持 不 变 。 [0x876543FF]。 

证 弹 练习 题 2. 13 从 20 世纪 70 年 代 末 到 80 年 代 末 ，Digital Equipment 的 VAX 计算 机 
是 一 种 非常 流行 的 机 型 。 它 没有 布尔 运算 AND 和 OR 指令 ， 只 有 bis( 位 设置 ) 和 
bic( 位 清除 ) 这 两 种 指令 。 两 种 指令 的 输入 都 是 一 个 数据 字 x 和 一 个 掩 码 字 mm。 它们 
生成 一 个 结果 z，z 是 由 根据 掩 码 m 的 位 来 修改 x 的 位 得 到 的 。 使 用 bis 指令 ， 这 种 
修改 就 是 在 m 为 1 的 每 个 位 置 上 ， 将 z 对 应 的 位 设置 为 1。 使 用 bic 指令 ， 这 种 修改 
就 是 在 m 为 1 的 每 个 位 置 ， 将 z 对 应 的 位 设置 为 0。 

为 了 看 清楚 这 些 运算 与 C 语 言 位 级 运算 的 关系 ,假设 我 们 有 两 个 函数 bis 和 bic 来 实 
现 位 设置 和 位 清除 操作 。 只 想 用 这 两 个 函数 ， 而 不 使 用 任何 其 他 C 语言 运算 ， 来 实现 按 
位 | 和 “运算 。 填 写 下 列 代 码 中 缺失 的 代码 。 提 示 : 写 出 bis 和 bic 运算 的 C 语 言 表达 式 。 
/* Declarations of functions implementing operations bis and bic */ 


int bis(int x, int m); 
int bic(int x, int mm) ; 


/* Compute x|ly using only calls to functions bis and bic */ 
int bool_or(int x, int y) 1 

int result = >- 

return result; 





} 


/* Compute x”y using only calls to functions bis and bic */ 
int bo0l Xor(int FR, nt T) { 

int result = - ]. 

return result; 





} 


2. 1.8 C 语 言 中 的 逻辑 运算 

C 语言 还 提供 了 一 组 逻辑 运算 符 上 、 公 冬 和 !， 分 别 对 应 于 命题 逻辑 中 的 OR、AND 
和 NOT 运算 。 人 逻辑 运算 很 容易 和 位 级 运算 相 混 淆 ,但 是 它们 的 功能 是 完全 不 同 的 。 人 逻辑 
运算 认为 所 有 非 零 的 参数 都 表示 TRUE， 而 参数 0 表示 FALSE。 它 们 返回 1 或 者 0， 分别 
表示 结果 为 TRUE 或 者 为 FALSE。 以 下 是 一 些 表 达 式 求 值 的 示例 。 












TE om 
可 以 观察 到 ， 按 位 运算 只 有 在 特殊 情况 下 ， 也 就 是 参数 被 限制 为 0 或 者 1 时 ， 才 和 与 
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其 对 应 的 逻辑 运算 有 相同 的 行为 。 
逻辑 运算 符 六 区 和 | 与 它们 对 应 的 位 级 运算 & 和 | 之 间 第 二 个 重要 的 区 别 是 ， 如 果 对 
第 一 个 参数 求 值 就 能 确定 表达 式 的 结果 ， 那 么 逻辑 运算 符 就 不 会 对 第 二 个 参数 求 值 。 因 此 ， 
例如 ， 表 达 式 agg5/a 将 不 会 造成 被 零 除 ， 而 表达 式 p&&xp++ 也 不 会 导致 间接 引用 空 指 针 。 
放电 练习 题 2. 14 假设 x 和 y 的 字 节 值 分 别 为 0x66 和 0x39。 填 写 下 表 ， 指 明 各 个 C 表达 
式 的 字 节 值 。 





让 s 练习 题 2. 15 只 使 用 位 级 和 逻辑 运算 ， 编 写 一 个 C 表达 式 ， 它 等 价 于 x==y。 换 句 话 
说 ， 当 x 和 y 相 等 时 它 将 返回 1， 和 否则 就 返回 0。 


2. 1.9 CC 语言 中 的 移 位 运算 


C 语言 还 提供 了 一 组 移 位 运算 ， 向 左 或 者 向 右 移动 位 模式 。 对 于 一 个 位 表示 为 Lz-1， 
Zzxw-z，"…，o | 的 操作 数 x，C 表达 式 x<<k 会 生成 一 个 值 ， 其 位 表示 为 [Lzxws4-1，ZXw-t-2，*…， 
Tu OD 0]。 也 就 是 说 ， x 问 左 移动 上 位， 丢弃 最 高 的 位 ， 并 在 右 问 补 有 个 0。 移 位 
量 应 该 是 一 个 0 一 w 一 1 之 间 的 值 。 移 位 运算 是 从 左 至 右 可 结合 的 ， 所 以 x<<j<<k 等 价 于 
(XK ) <<kK, 

有 一 个 相应 的 右 移 运 算 x>>k， 但 是 它 的 行为 有 点 微妙 。 一 般 而 言 ， 机 和 需 文 持 两 种 形 
式 的 右 移 : 还 辑 右 移 和 算术 右 移 。 轴 辑 右 移 在 左 端 补 &A 个 0， 得 到 的 结果 是 L0，…，0， 
ZXw-1，ZXw_2，"…，Xk]。 算 术 右 移 是 在 左 端 补 上 个 最 高 有 效 位 的 值 ， 得 到 的 结果 是 [ x,_1，… 
ZXw-1， Xw-1， Xw-2，"…， Xk」]。 这 种 做 法 看 上 去 可 能 有 点 奇特 ， 但 是 我 们 会 发 现 它 对 有 符 
号 整数 数据 的 运算 非常 有 用 。 

让 我 们 来 看 一 个 例子 ， 下 面 的 表 给 出 了 对 一 个 8 位 参数 x 的 两 个 不 同 的 值 做 不 同 的 移 
位 操作 得 到 的 结果 : 








x >> 4 逻辑 右 移 ) [00000110] [00001001] 
x >> 4 算术 右 移 ) [00000110] [727171001] 


斜体 的 数字 表示 的 是 最 右 端 ( 左 移 ) 或 最 左 端 ( 右 移 ) 填 充 的 值 。 可 以 看 到 除了 一 个 条 目 
之 外 ， 其 他 的 都 包含 填充 0。 唯 一 的 例外 是 算术 右 移 L10010101j] 的 情况 。 因 为 操作 数 的 最 
高 位 是 1， 填 充 的 值 就 是 1。 

C 语言 标准 并 没有 明确 定义 对 于 有 符号 数 应 该 使 用 哪 种 类 型 的 右 移 一 一 算术 右 移 或 者 逻辑 
右 移 都 可 以 。 不 幸 地 ， 这 就 意味 着 任何 假设 一 种 或 者 另 一 种 右 移 形 式 的 代码 都 可 能 会 遇 到 可 移 
植 性 问题 。 然 而 ， 实 际 上 ， 几 乎 所 有 的 编译 器 /机 器 组 合 都 对 有 符号 数 使 用 算术 右 移 ， 且 许多 
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程序 员 也 都 假设 机 器 会 使 用 这 种 右 移 。 另 一 方面 ， 对 于 无 符号 数 ， 右 移 必 须 是 逻辑 的 。 
与 C 相 比 ，Java 对 于 如 何 进行 右 移 有 明确 的 定义 。 表 达 是 x>>k 会 将 x 算术 右 移 k 个 
位 置 ， 而 x>>>k 会 对 x 做 逻辑 右 移 。 


旁 注 移动 k 位 ， 这 里 k 很 大 

对 于 一 个 由 包 位 组 成 的 数据 类 型 ， 如 果 要 移动 上 之 位 会 得 到 什么 结果 呢 ? 例如， 
计算 下 面 的 表达 式 会 得 到 什么 结果 ， 假 设 数据 类 型 int 为 w= 二 32; 

int lval = OxFEDCBA98 << 32; 

int aval = OxFEDCBA98 >> 36; 

unsigned uval = OxFEDCBA98u >> 40 ; 

C 语言 标准 很 小 心地 规避 了 说 明 在 这 种 情况 下 该 如 何 做 。 在 许多 机 器 上 ， 当 移动 一 个 
位 的 值 时 ， 移 位 指令 只 考虑 位 移 量 的 低 ljogzzw 位 ， 因 此 实际 上 位 移 量 就 是 通过 计算 k mod 
Ww 得 到 的 。 例 如 ， 当 ww 二 32 时 ， 上 面 三 个 移 位 运算 分 别 是 移动 0、4 和 8 位， 得 到 结果 : 


lval OxFEDCBA98 
aval OxFFEDCBA9 
uval OxOOFEDCBA 


不 过 这 种 行为 对 于 C 程序 来 说 是 没有 保证 的 ， 所 以 应 该 保持 位 移 量 小 于 待 移 位 值 的 位 数 。 
另 一 方面 ，Java 特别 要 求 位 移 数量 应 该 按照 我 们 前 面 所 讲 的 求 模 的 方法 来 计划 。 


国 河 与 移 位 运算 有 关 的 操作 符 优先 级 问题 


常常 有 人 会 写 这 样 的 表达 式 1<<2+3<<4， 本 意 是 (1<<2)+(3<<4)。 但 是 在 C 语 言 中 ， 
前 面 的 表达 式 等 价 于 1<<(2+3)<<4， 这 是 由 于 加 法 (和 减法 ) 的 优先 级 比 移 位 运算 要 高 。 
然后 ， 按 照 从 左 至 右 结 合 性 规则 ， 括 号 应 该 是 这 样 打 的 (1<<(2+3) ) <<4， 得 到 的 结果 是 
512， 而 不 是 期 望 的 52。 

在 CC 表达 式 中 搞 错 优先 级 是 一 种 常见 的 程序 错误 原因 ， 而 且 常 常 很 难 检查 出 来 。 所 
以 当 你 拿 不 准 的 时 候 ， 请 加 上 括号 1 


区 练习 题 2. 16 填写 下 表 ， 展 示 不 同 移 位 运算 对 单字 节 数 的 影响 。 思 考 移 位 运算 的 最 
好 方式 是 使 用 二 进 制 表示 。 将 最 初 的 值 转换 为 二 进 制 ， 执 行 移 位 运算 ， 然 后 再 转换 回 
十 六 进 制 。 每 个 答案 都 应 该 是 8 个 二 进 制 数字 或 者 2 个 十 六 进 制 数 字 。 


一 
-= 





2.2 整数 表示 


在 本 节 中 ， 我 们 描述 用 位 来 编码 整数 的 两 种 不 同 的 方式 : 一 种 只 能 表示 非 负数 ， 而 另 
一 种 能 够 表示 负数 、 零 和正 数 。 后 面 我 们 将 会 看 到 它们 在 数学 属性 和 机 融 级 实现 方面 密切 
相关 。 我 们 还 会 研究 扩展 或 者 收缩 一 个 已 编码 整数 以 适应 不 同 长 度 表 示 的 效果 。 

图 2-8 列 出 了 我 们 引入 的 数学 术语 ， 用 于 精确 定义 和 描述 计算 机 如 何 编码 和 操作 整 
数 。 这 些 术 语 将 在 描述 的 过 程 中 介绍 ， 图 在 此 处 列 出 作为 参考 。 


42 第 一 部 分 程序 结构 和 执行 


二 进 制 转 补 码 

二 进 制 转 无 符号 数 
无 符号 数 转 二 进 制 
无 符号 转 补 码 

补 码 转 二 进 制 

补 码 转 无 符号 数 
最 小 补 码 值 


最 大 补 码 值 
最 大 无 符号 数 
补 码 加 法 

无 符号 数 加 法 
补 码 乘法 

无 符号 数 乘法 
补 码 取 反 

无 符号 数 取 反 


关 





图 2-8 整数 的 数据 与 算术 操作 术语 。 下 标 w 表 示 数 据 表 示 中 的 位 数 


2.2.1 整 型 数据 类 型 


C 语言 文 持 多 种 整 型 数据 类 型 一 一 表示 有 限 范 围 的 整数 。 这 些 类 型 如 图 2-9 和 图 2- 10 
所 示 ， 其 中 还 给 出 了 “典型 ”32 位 和 64 位 机 器 的 取 值 范围 。 每 种 类 型 都 能 用 关键 字 来 指 
定 大 小 ， 这 些 关 键 字 包括 char、short、 1ong， 同时 还 可 以 指示 被 表示 的 数字 是 非 负 数 
(声明 为 unsigned)， 或 者 可 能 是 负数 (默认 )。 如 图 2-3 所 示 ， 为 这 些 不 同 的 大 小 分 配 的 
字 节 数 根据 程序 编译 为 32 位 还 是 64 位 而 有 所 不 同 。 根 据 字 闻 分 配 ， 不 同 的 大 小 所 能 表示 
的 值 的 范围 是 不 同 的 。 这 里 给 出 来 的 唯一 一 个 与 机 器 相关 的 取 值 范围 是 大 小 指示 符 long 
的 。 大 多 数 64 位 机 器 使 用 8 个 字 节 的 表示 ， 比 32 位 机 器 上 使 用 的 4 个 字 节 的 表示 的 取 值 
范围 大 很 多 。 


[signed] char 一 128 127 
unsigned char 0 255 


short -32 768 32 767 
unsigned Short 0 65 535 


int -2 147 483 648 2 147 483 647 
unsigned 0 4 294 967 295 


long -2 147 483 648 2 147 483 647 
unsigned long 0 4 294 967 295 


nt 二 -2 147 483 648 2 147 483 647 
Wint32 € 0 4 294 967 295 


int64_t -9 223 372 036 854 775 808 9 223 372 036 854 775 807 
uint64_t 0 18 446 744 073 709 551 615 





图 2-9 32 位 程序 上 C 语言 整 型 数据 类 型 的 典型 取 值 范围 
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C 数 据 类 型 


[signed]char 
unsigned char 


short 


unsigned short 


int 
unsigned 


long 


unsigned long 


TIE 人 2 臣 
Unt32 七 


int64 & 
Uint64 七 


图 2-10 





-128 127 


0 255 


—32 768 32 767 


0 65 535 


-2 147 483 648 2 147 483 647 


0 4 294 967 295 


-9 223 372 036 854 775 808 9 223 372 036 854 775 807 


0 18 446 744 073 709 $51 615 


-2 147 483 648 2 147 483 647 


0 4 294 967 295 


-9 223 372 036 854 775 808 9 223 372 036 854 775 807 


0 18 446 744 073 709 $551 615 


64 位 程序 上 C 语言 整 型 数据 类 型 的 典型 取 值 范围 


图 2-9 和 图 2-10 中 一 个 很 值得 注意 的 特点 是 取 值 范围 不 是 对 称 的 一 一 负数 的 范围 比 整 
数 的 范围 大 1。 当 我 们 考虑 如 何 表示 负数 的 时 候 ， 会 看 到 为 什么 会 这 样 。 

C 语言 标准 定义 了 每 种 数据 类 型 必须 能 够 表示 的 最 小 的 取 值 范 围 。 如 图 2-11 所 示 ， 它 
们 的 取 值 范围 与 图 2-9 和 图 2-10 所 示 的 典型 实现 一 样 或 者 小 一 些 。 特 别 地 ， 除 了 固定 大 小 
的 数据 类 型 是 例外 ， 我 们 看 到 它们 只 要 求 正 数 和 负数 的 取 值 范围 是 对 称 的 。 此 外 ， 数 据 类 
型 int 可 以 用 2 个 字 节 的 数字 来 实现 ， 而 这 几乎 回 退 到 了 16 位 机 器 的 时 代 。 还 可 以 看 到 ， 
long 的 大 小 可 以 用 4 个 字 节 的 数字 来 实现 ， 对 32 位 程序 来 说 这 是 很 典型 的 。 固 定 大 小 的 数 
据 类 型 保证 数值 的 范围 与 图 2-9 给 出 的 典型 数值 一 致 ， 包 括 负数 与 正 数 的 不 对 称 性 。 


[signed]char 
unsigned char 


short 


unsigned short 


int 
unsigned 


long 
unsigned long 


2 才 
wint32 芷 


int64 鞋 
uUint64 七 





-127 127 


0 255 


-32 767 32 767 


0 65 535 


-32 767 32 767 


0 65 $35 


-2 147 483 647 2 147 483 647 


0 4 294 967 295 


-2 147 483 648 2 147 483 647 


0 4 294 967 295 


-9 223 372 036 854 775 808 9 223 372 036 854 775 807 


0 18 446 744 073 709 551 615 


图 2-11 C 语言 的 整 型 数据 类 型 的 保证 的 取 值 范围 。C 语言 标准 要 求 
这 些 数据 类 型 必须 至 少 具有 这 样 的 取 值 范围 


秘法 二 JE 有 C、C++ 和 Java 中 的 有 符号 和 无 符号 数 
C 和 C++ 都 支持 有 符号 ( 软 认 ) 和 无 符号 数 。Java 只 支持 有 符号 数 。 


2.2.2 无 符号 数 的 编码 


假设 有 一 个 整数 数据 类 型 有 也 位 。 我 们 可 以 将 位 向 量 写成 工 ， 表 示 整 个 向 量 ， 或 者 写 
把 工 看 做 一 个 二 进 制 表示 的 数 ， 就 获得 


成 [Li 站 it 一 2 9 “"*, ir | 表示 问 量 中 的 每 一 位 。 
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了 蔗 的 无 符号 表示 。 在 这 个 编码 中 ， 每 个 位 zx; 都 取 值 为 0 或 1， 后 一 种 取 值 意味 着 数值 2 应 
为 数字 值 的 一 部 分 。 我 们 用 一 个 阴 数 B2U. (Binary to Unsigned 的 缩写 ， 长 度 为 w) 来 表示 : 
原理 : 无 符号 数 编码 的 定义 
对 向 量 T= [xi 9 Tw-—29 ”9 6 | 


B2U,.(z) = > zi2 和 


EU 


在 这 个 等 式 中 ， 符 号 “二 ”表示 左边 被 定义 为 等 于 右边 。 函 数 B2U, 将 一 个 长 度 为 芭 的 
0、1 串 映 射 到 非 负 整数 。 举 一 个 示例 ， 图 2-11 展示 的 是 下 面 几 种 情况 下 B2U 给 出 的 从 位 
向 量 到 整数 的 映射 : 
B2U,([00011]) 和 0。2 十 0 2 十 0.2 十 1。22 王 0 十 0 十 0 十 1=1 
B2U (01011) 三 0。23 十 1。22 十 0。21 十 1。22 一 0 十 4 二 0 十 1= 
B2U,(L1011j) =1。23 十 0。2: 十 1。2 十 1。2" 一 8 十 0 十 2 十 1=11 
B24([1111]) =1。23 十 1。2: 十 1。2 十 1。2" 一 8 十 4 十 2 十 1 一 15 

在 图 中 ， 我 们 用 长 度 为 2 的 指向 右 侧 箭头 的 条 表示 每 个 位 的 位 置 i。 每 个 位 向 量 对 应 
的 数值 就 等 于 所 有 值 为 1 的 位 对 应 的 条 
的 长 度 之 和 。 

让 我 们 来 考虑 一 下 w 位 所 能 表示 
的 值 的 范围 。 最 小 值 是 用 位 向 量 L00… 
0 表示 ， 也 就 是 整数 值 0， 而 最 大 值 是 012345678 910111213141516 
用 位 向 量 [11…1 jj] 表示， 也 就 是 整数 值 

wi 0001 
UMazx,, = 站 二 2” 一 ] 。 以 4 位 情 视 
为 例 ，UMaz, 王 B2U (1111]) 王 2 一 101 
1 二 15。 因 此 ， 函 数 B2U. 能 够 被 定义 LI 
为 一 个 映射 B2U,: (0，1) -一 (0，…， 图 2-12 ”w= 二 4 的 无 符号 数 示 例 。 当 二 进 制 表示 
ee 中 位 i 为 1， 数值 就 会 相应 加 上 2 

无 符号 数 的 二 进 制 表示 有 一 个 很 重要 的 属性 ， 也 就 是 每 个 介 于 0 一 2* 一 1 之 间 的 数 都 
有 了 唯一 一 个 也 位 的 值 编 码 。 例 如 ， 十 进 制 值 11 作为 无 符号 数 ， 只 有 一 个 4 位 的 表示 ， 即 
L1011]。 我 们 用 数学 原理 来 重点 讲述 它 ， 先 表述 原理 再 解释 。 

原理 : 无 符号 数 编码 的 唯一 性 

函数 B2U,, 是 一 个 双 射 。 

数学 术语 双 射 是 指 一 个 函数 f 有 两 面 : 它 将 数值 x 映射 为 数值 y， 即 y= 二 f(z), 但 它 
也 可 以 反问 操作 ， 因 为 对 每 一 个 y 而 言 ， 都 有 了 唯一 一 个 数值 x 使 得 f(x) 二 y。 这 可 以 用 反 
函数 f°!' 来 表示 ， 在 本 例 中 ， 即 x 二 '(y)。 函 数 B2U, 将 每 一 个 长 度 为 ww 的 位 向 量 都 映 
射 为 0 一 2" 一 1 之 间 的 一 个 唯一 值 ; 反 过 来 ， 我们 称 其 为 U2B,,( 即 “无 符号 数 到 二 进 制 ”)， 
在 0 一 2 一 1 之 间 的 每 一 个 整数 都 可 以 映射 为 一 个 唯一 的 长 度 为 w 的 位 模式 。 


《ws 2) 





2.2.3 补 码 编码 


对 于 许多 应 用 ， 我 们 还 希望 表示 负数 值 。 最 常见 的 有 符号 数 的 计算 机 表示 方式 就 是 补 
码 (two’” s-complement) 形 式 。 在 这 个 定义 中 ， 将 字 的 最 高 有 效 位 解释 为 负 权 (negative 
weight) 。 我 们 用 肾 数 B2T,,(Binary to Two’s-complement 的 缩写 ， 长 度 为 多 ) 来 表示 : 
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原理 : 补 码 编码 的 定义 
对 向 醒 巨 王 [ze-i，za-s，…，zo]: 


zx 一 2 


B2T, (2) =— zwa2 十 zi (2. 3) 


最 高 有 效 位 zw- 也 称 为 符号 位 ， 它 的 “权重 ”为 一 2”: ， 是 无 符号 表示 中 权重 的 负 
数 。 符 号 位 被 设置 为 1 时， 表示 值 为 负 ， 而 当 设置 为 0 时 ， 值 为 非 负 。 这 里 来 看 一 个 示 
例 ， 图 2-13 展示 的 是 下 面 几 种 情况 下 B2T 给 出 的 从 位 向 量 到 整数 的 映射 。 

B2T,tLo001]) 一 一 0 六 十 0 旬 寺 0 丈 寺 1 更 一 0 二 0 二 01 1] 
B2T,X0101] 一 一 0 型 寺 12 全 二 站 斑 二 1 于 三 10 二 4 十 5 二 1 王 
B27T.CEL011]) 二 一 1 间 十 在下 1 六 灶 1。 吕 二 一 入 十 太古 刘 十 1 二 一 和 
DT 一 

在 这 个 图 中 ， 我们 用 向 左 指 的 条 表 
示 符 号 位 具有 负 权 重 。 于 是 ， 与 一 个 位 I 
向 量 相 关联 的 数值 是 由 可 能 的 向 左 指 的 | 
条 和 向 右 指 的 条 加 起 来 决定 的 。 -1 

人 = =6=5=4=3 1 

中 的 位 模式 都 是 一 样 的 ， 对 等 式 (2. 2) 
和 等 式 (2.4) 来 说 也 是 一 样 ， 但 是 当 最 [0001] 
高 有 效 位 是 1 时， 数值 是 不 同 的 ， 这 是 [0101] 
因为 在 一 种 情况 中 ， 最 高 有 效 位 的 权重 [1011] 
是 十 8， 而 在 另 一 种 情况 中 ， 它 的 权重 ii 
是 一 8。 

让 我 们 来 考虑 一 下 色 位 补 码 所 能 图 213 w=4 的 补 码 示例 。 把 位 3 作为 符号 位 ， 因 此 当 它 
表示 的 值 的 范围 。 它 能 表示 的 最 小 值 是 为 1 时 ， 对 数值 的 影响 是 一 2 一 一 8。 这 个 权重 
位 向 量 [10…0]( 也 就 是 设置 这 个 位 为 负 人 
权 ， 但 是 清除 其 他 所 有 的 位 ，)， 其 整数 值 为 TMin, = 二 一 2”'。 而 最 大 值 是 位 向 量 [01…1] 


U2 


(清除 具有 负 权 的 位 ， 而 设置 其 他 所 有 的 位 )， 其 整数 值 为 TMax, 二 >2 = 2”!' 一 1 。 以 
长 度 为 4 为 例 ， 我 们 有 TMin = B2T([1000]))= 一 2 了 = 一 8， 而 TMaz = 二 B2T,([0111])= 
2 十 2 二 2 一 4 二 2 二 1 一 7。 

我 们 可 以 看 出 B2T, 是 一 个 从 长 度 为 ww 的 位 模式 到 TMin, 和 了 TMazu 之 间 数 字 的 映 
射 ， 写作 B2T,: {0，1})* 一 {TMin,，*…，TMazx.}。 同 无 符号 表示 一 样 ， 在 可 表示 的 取 
值 范围 内 的 每 个 数字 都 有 一 个 唯一 的 多 位 的 补 码 编码 。 这 就 导出 了 与 无 符号 数 相 似 的 补 码 
数 原 理 : 

原理 : 补 码 编码 的 唯一 性 

函数 B2T,, 是 一 个 双 射 。 

我 们 定义 函数 T2B,( 即 “ 补 码 到 二 进 制 ”) 作 为 B2T, 的 反 函 数 。 也 就 是 说 ， 对 于 每 个 
数 xz， 满足 TMin, 达 x+ 三 TMazx,,， 则 T2B, (xz) 是 工 的 (唯一 的 )w 位 模式 。 
区 练习 题 2. 17 假设 ww 二 4， 我们 能 给 每 个 可 能 的 十 六 进 制 数字 赋予 一 个 数值 ， 假 设 用 

一 个 无 符号 或 者 补 码 表示 。 请 根据 这 些 表示 ， 通 过 写 出 等 式 (2.1) 和 等 式 (2.3) 所 示 的 

求 和 公式 中 的 2 的 非 零 次 里 ， 填 写 下 表 : 


5 
(2. 4) 
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十 六 进 制 = 









B2U:( Xx) B2T,(X) 


2’+2”+2!'=14 —2°+2’+2!'= 一 2 






图 2-14 展示 了 针对 不 同 字 长 ， 几 个 重要 数字 的 位 模式 和 数值 。 前 三 个 给 出 的 是 可 表 
示 的 整数 的 范围 ， 用 UMaz,、TMin,, 和 TMazx 来 表示 。 在 后 面 的 讨论 中 ， 我 们 还 会 经 
常 引用 到 这 三 个 特殊 的 值 。 如 果 可 以 从 上 下 文中 推断 出 w， 或 者 ww 不 是 讨论 的 主要 内 容 
时 ， 我 们 会 省 略 下 标 w， 直 接 引 用 UMax 、TMiz 和 TMarz 。 


字 长 w 


OxFFFF OXFFFFFFEFF OXFFFFFFFFFFFFFFFF 
65 535 4 294 967 295 18 446 744 073 709 $51 615 


Ox8000 0x80000000 0x8000000000000000 
Ox7FFF Ox7FFFFFFF OX/FFFFFFFFFFFFFFEFE 
OXxFFFF OXFFFFFFFF OXFFFFFFFFEFFFEFFF 


图 2-14 重要 的 数字 。 图 中 给 出 了 数值 和 十 六 进 制 表 示 





关于 这 些 数 字 ， 有 几 点 值得 注意 。 第 一 ， 从 图 2-9 和 图 2-10 可 以 看 到 ， 补 码 的 范围 是 
不 对 称 的 :| TMin | 二 | TMaz| 十 1， 也 就 是 说 ，TiMin 没有 与 之 对 应 的 正 数 。 正 如 我 们 将 
会 看 到 的 ， 这 导致 了 补 码 运算 的 某 些 特殊 的 属性 ， 并 且 容 易 造 成 程序 中 细微 的 错误 。 之 所 
以 会 有 这 样 的 不 对 称 性 ， 是 因为 一 半 的 位 模式 (符号 位 设置 为 1 的 数 ) 表 示 负 数 ， 而 另 一 半 
(符号 位 设置 为 0 的 数 ) 表 示 非 负数 。 因 为 0 是 非 负 数 ， 也 就 意味 着 能 表示 的 整数 比 负 数 少 
一 个 。 第 二 ， 最 大 的 无 符号 数值 刚好 比 补 码 的 最 大 值 的 两 倍 大 一 点 : UMazuw 一 2TMazu 十 
1。 补 码 表示 中 所 有 表示 负数 的 位 模式 在 无 符号 表示 中 都 变 成 了 正 数 。 图 2-14 也 给 出 了 常 
数 一 1 和 0 的 表示 。 注 意 一 1 和 UMaz 有 同样 的 位 表示 一 一 一 个 全 1 的 串 。 数 值 0 在 两 种 
表示 方式 中 都 是 全 0 的 串 。 

C 语言 标准 并 没有 要 求 要 用 补 码 形式 来 表示 有 符号 整数 ， 但 是 几乎 所 有 的 机 器 都 是 这 
么 做 的 。 程 序 员 如 果 和 布 望 代 码 具 有 最 大 可 移植 性 ， 能 够 在 所 有 可 能 的 机 器 上 运行 ， 那 么 除 
了 图 2-11 所 示 的 那些 范围 之 外 ， 我 们 不 应 该 假设 任何 可 表示 的 数值 范围 ， 也 不 应 该 假设 
有 符号 数 会 使 用 何 种 特殊 的 表示 方式 。 男 一 方面 ， 许 多 程序 的 书写 都 假设 用 补 码 来 表示 有 
符号 数 ， 并 且 具 有 图 2-9 和 图 2-10 所 示 的 “典型 的 ” 取 值 范围 ， 这 些 程序 也 能 够 在 大 量 的 
机 器 和 编译 器 上 移植 。C 库 中 的 文件 < limits.h> 定 义 了 一 组 常量 ， 来 限定 编译 器 运行 的 
这 人 台 机 器 的 不 同 整 型 数据 类 型 的 取 值 范围 。 比 如 ， 它 定义 了 常量 INT MAX、INT MIN 和 
UINT MAX， 它 们 描述 了 有 符号 和 无 符号 整数 的 范围 。 对 于 一 个 补 码 的 机 器 ， 数 据 类 型 int 
有 也 位 ， 这 些 常量 就 对 应 于 TMazxs、TMin,, 和 UMazx。 的 值 。 
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ES 关于 确定 大 小 的 整数 类 型 的 更 多 内 容 

对 于 某 些 程序 来 说 ， 用 某 个 确定 大 小 的 表示 来 编码 数据 类 型 非常 重要 。 例 如 ， 当 编写 程序 ， 
使 得 机 器 能 够 按照 一 个 标准 协议 在 因特网 上 通信 时 ， 让 数据 类 型 与 协议 指定 的 数据 类 型 兼容 是 
非常 重要 的 。 我 们 前 面 看 到 了 ， 某 些 C 数据 类 型 ， 特 别 是 long 型 ， 在 不 同 的 机 器 上 有 不 同 的 取 
值 范围 ， 而 实际 上 CC 语言 标准 只 指定 了 每 种 数据 类 型 的 最 小 范围 ， 而 不 是 确定 的 范围 。 虽 然 我 
们 可 以 选择 与 大 多 数 机 器 上 的 标准 表示 兼容 的 数据 类 型 ， 但 是 这 也 不 能 保证 可 移植 性 。 

我 们 已 经 见 过 了 32 位 和 64 位 版 本 的 确定 大 小 的 整数 类 型 (图 2-3)， 它 们 是 一 个 更 
大 数据 类 型 类 的 一 部 分 。ISO C99 标准 在 文件 stdint.h 中 引入 了 这 个 整数 类 型 类 。 这 
个 文件 定义 了 一 组 数据 类 型 ， 它 们 的 声明 形 如 intN 七 和 uintN t， 对 不 同 的 N 值 指定 
N 位 有 符号 和 无 符号 整数 。N 的 具体 值 与 实现 相关 ， 但 是 大 多 数 编 译 器 允许 的 值 为 8、 
16、32 和 64。 因 此 ， 通 过 将 它 的 类 型 声明 为 uint16 七 ， 我 们 可 以 无 歧义 地 声明 一 个 16 
位 无 符号 变量 ， 而 如 果 声 明 为 int32 七 ， 就 是 一 个 32 位 有 符号 变量 。 

这 些 数 据 类 型 对 应 着 一 组 宏 ， 定义 了 每 个 如 的 值 对 应 的 最 小 和 最 大 值 。 这 些 宏 名 字 
形 如 INTN MIN、INTN MAX 和 UINTN MAX。 

确定 宽度 类 型 的 带 格式 打印 需要 使 用 宏 ， 以 与 系统 相关 的 方式 扩展 为 格式 囊 。 因 
此 ， 举 个 例子 来 说 ， 变 量 x 和 yy 的 类 型 是 int32 七 和 uint64 七 ， 可 以 通过 调用 printf 
来 打印 它们 的 值 ， 如 下 所 示 : 

printf("x = %" PRId32 ", y = % PRIu64 "\n", x, y); 


编译 为 64 位 程序 时 ， 宏 PRId32 展开 成 字符 事 “d”， 宏 PRIu64 则 展开 成 两 个 字符 串 
“]”“u”。 当 C 预 处 理 器 遇 到 仅 用 空格 (或 其 他 空白 字符 ) 分 隔 的 一 个 字符 串 常量 序列 时 ， 
就 把 它们 串联 起 来 。 因 此 ， 上 面 的 printf 调 用 就 变 成 了 : 

printf("x = %d, y = %lu\n", x, y); 


使 用 宏 能 保证 : 不 论 代 码 是 如 何 被 编译 的 ， 都 能 生成 正确 的 格式 字符 串 。 


关于 整数 数据 类 型 的 取 值 范围 和 表示 ，jJava 标准 是 非常 明确 的 。 它 要 求 采 用 补 码 表示 ， 取 
值 范围 与 图 2-10 中 64 位 的 情况 一 样 。 在 Java 中 ， 单 字 节 数据 类 型 称 为 byte， 而 不 是 char。 这 
些 非常 具体 的 要 求 都 是 为 了 保证 无 论 在 什么 机 器 上 运行 ，Java 程序 都 能 表现 地 完全 一 样 。 


下 有 符号 数 的 其 他 表示 方法 

有 符号 数 还 有 两 种 标准 的 表示 方法 : 

反 码 (Ones”Complement): 除了 最 高 有 效 位 的 权 是 一 (2”'! 一 1) 而 不 是 一 2*”!1!， 它 
和 补 码 是 一 样 的 : 


山 / 一 作 
B20O,(z) =— zi (2 一 1) 十 Sri2 
i=0 


原 码 (Sign-Magnitude): 最 高 有 效 位 是 符号 位 ， 用 来 确定 剩 下 的 位 应 该 取 负 权 还 是 正 权 : 


B2S,。 (元 ) = (—1)™ . ( Dz2’) 
i=0 


这 两 种 表示 方法 都 有 一 个 奇怪 的 属性 ， 那 就 是 对 于 数字 0 有 两 种 不 同 的 编码 方式 。 
这 两 种 表示 方法 ， 把 [00…0] 都 解释 为 十 0。 而 值 一 0 在 原 码 中 表示 为 [10…0]， 在 反 码 
中 表示 为 [11…1]。 虽 然 过 去 生产 过 基于 反 码 表示 的 机 器 ， 但 是 几乎 所 有 的 现代 机 器 都 
使 用 补 码 。 我 们 将 看 到 在 浮 点 数 中 有 使 用 原 码 编码 。 
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请 注意 补 码 (Two’”’s complement) 和 反 码 (Ones’complement) 中 搬 号 的 位 置 是 不 同 
的 。 术 语 补 码 来 源 于 这 样 一 个 情况 ， 对 于 非 负 数 xz， 我 们 用 2 一 x( 这 里 只 有 一 个 2) 来 
计算 一 z 的 w 位 表示 。 术 语 反 码 来 源 于 这 样 一 个 属性 ， 我 们 用 [111…1] 一 x( 这 里 有 很 多 
个 1) 来 计算 一 工 的 反 码 表示 。 


为 了 更 好 地 理解 补 码 表示 ， 考 虑 下 面 的 代码 : 


Short x = 12345; 
Short mx = 一 X; 


tn 一 


show_bytes((byte_pointer) &x, sizeof (short) ) ; 
show_bytes((byte_pointer) &mx, sizeof (short)); 

当 在 大 端 法 机 器 上 运行 时 ， 这 段 代 码 的 输出 为 30 39 和 cf c7， 指 明 x 的 十 六 进 制 表 
示 为 0x3039， 而 mx 的 十 六 进 制 表示 为 0xcFC7。 将 它们 展开 为 二 进 制 ,我们 得 到 x 的 位 
模式 为 L0011000000111001]， 而 mx 的 位 模式 为 L1100111111000111」]。 如 图 2-15 所 示 ， 等 
式 (2. 3) 对 这 两 个 位 模式 生成 的 值 为 12 345 和 一 12 345。 


权 12 345 一 12 345 53 191 
人 值 | 位 | 和 值 


| 
， 


了 


512 

1 024 

2 048 

4 096 

8 192 
16 384 
十 32 768 


OO OPP OO OO ooPpPPPPPODO Pp 
关口 并口 避 和 和 pp 
POOCOPPPPPPP GO O Opp bp 





图 2-15 12 345 和 一 12 345 的 补 码 表示 ， 以 及 53 191 的 无 符号 表示 。 注 意 后 面 两 个 数 有 相同 的 位 表示 


练习 题 2. 18 在 第 3 章 中 ， 我 们 将 看 到 由 反 汇 编 器 生成 的 列表 ， 反 汇编 器 是 一 种 将 可 
执行 程序 文件 转换 回 可 读 性 更 好 的 ASCII 码 形 式 的 程序 。 这 些 文件 包含 许多 十 六 进 制 
数字 ， 都 是 用 典型 的 补 码 形式 来 表示 这 些 值 。 能 够 认识 这 些 数 字 并 理解 它们 的 意义 
(例如 它们 是 正 数 还 是 负数 )， 是 一 项 重要 的 技巧 。 

在 下 面 的 列表 中 ， 对 于 标号 为 A 一 I( 标 记 在 右边 ) 的 那些 行 ， 将 指令 名 (sub、mov 
和 add) 右 边 显示 的 (32 位 补 码 形式 表示 的 ) 十 六 进 制 值 转换 为 等 价 的 十 进 制 值 。 





4004d0: 48 81 ec e0 02 00 00 sub $Ox2e0 ,hrsp A. 
4004d7: 48 8b 44 24 a8 mov -0x58(%rsp) ,hrax B. 
4004dc: 48 03 47 28 add Ox28(%rdi) ,hrax 6: 
4004e0: 48 89 44 24 d0 mov %rax,—-0x30(%rsp) D. 


第 2 草 信息 的 表示 和 处 理 49 


4004e5: 48 8b 44 24 78 mov Ox78(%rsp) ,hrax E. 
4004ea: 48 89 87 88 00 00 00 mov Wrax,Ox88(%rdi) F. 
4004fl: 48 8b 84 24 f8 01 00 mov Ox1f8(%rsp) ,hrax @, 
4004f8: 00 

4004f9: 48 03 44 24 08 add Ox8(%rsp) ,hrax 

4004fe: 48 89 84 24 c0 00 00 mov hrax,OxcO(hrsp) H. 
400505: 00 

400506: 48 8b 44 d4 b8 mov -Ox48(%rsp,%rdx,8),%rax I. 


2.2.4 有 符号 数 和 无 符号 数 之 间 的 转换 


C 语言 允许 在 各 种 不 同 的 数字 数据 类 型 之 间 做 强制 类 型 转换 。 例 如 ， 假 设 变量 x 声明 
为 int，u 声明 为 unsigned。 表 达 式 (unsigned)x 会 将 x 的 值 转 换 成 一 个 无 符号 数值 ， 而 
(int)u 将 的 值 转换 成 一 个 有 符号 整数 。 将 有 符号 数 强 制 类 型 转换 成 元 符号 数 ， 或 者 反 
过 来 ， 会 得 到 什么 结果 呢 ? 从 数学 的 角度 来 说 ， 可 以 想象 到 几 种 不 同 的 规则 。 很 明显 ， 对 
于 在 两 种 形式 中 都 能 表示 的 值 ， 我 们 是 想 要 保持 不 变 的 。 另 一 方面 ， 将 负数 转换 成 无 符号 
数 可 能 会 得 到 0。 如 果 转 换 的 无 符号 数 太 大 以 至 于 超出 了 补 码 能 够 表示 的 范围 ， 可 能 会 得 
到 TMax。 不 过 ， 对 于 大 多 数 C 语言 的 实现 来 说 ， 对 这 个 问题 的 回答 都 是 从 位 级 角度 来 看 
的 ， 而 不 是 数 的 角度 。 

比如 说 ， 考 虑 下 面 的 代码 : 


1 short int V = -12345; 
2 unsigned short uv = (unsigned short) v; 
3 printf("v = %d, uv = Wu\n", Vv, uv); 


在 一 台 采 用 补 码 的 机 器 上 ， 上 述 代码 会 产生 如 下 输出 : 
v = -12345, uv = 53191 


我 们 看 到 ， 强 制 类 型 转换 的 结果 保持 位 值 不 变 ， 只 是 改变 了 解释 这 些 位 的 方式 。 在 图 2-15 
中 我 们 看 到 过 ， 一 12 345 的 16 位 补 码 表示 与 53 191 的 16 位 无 符号 表示 是 完全 一 样 的 。 将 
short 强制 类 型 转换 为 unsigned short 改变 数值 ， 但 是 不 改变 位 表示 。 

类 似 地 ， 考 虑 下 面 的 代码 : 


unsigned u = 4294967295nu ; /* UMax */ 
int tu = (int) u; 
printf("u = Wu, tu = %d\n", u, tu); 


| 
2 
3 
在 一 台 采 用 补 码 的 机 器 上 ， 上 述 代码 会 产生 如 下 输出 : 
u = 4294967295, tu = -1 


从 图 2-14 我 们 可 以 看 到 ， 对 于 32 位 字 长 来 说 ， 无 符号 形式 的 4 294 967 295(UMazx3;) 
和 补 码 形式 的 一 1 的 位 模式 是 完全 一 样 的 。 将 unsigned 强制 类 型 转换 成 int， 底 层 的 位 
表示 保持 不 变 。 

对 于 大 多 数 C 语言 的 实现 ， 处 理 同样 字 长 的 有 符号 数 和 无 符号 数 之 间 相互 转换 的 一 般 规 
则 是 : 数值 可 能 会 改变 ， 但 是 位 模式 不 变 。 让 我 们 用 更 数学 化 的 形式 来 描述 这 个 规则 。 我 们 
定义 也 数 U2B, 和 了 T2B.， 它 们 将 数值 映射 为 无 符号 数 和 补 码 形式 的 位 表示 。 也 就 是 说 ， 给 
定 0 之 x 过 UMazx 范围 内 的 一 个 整数 x， 函数 U2B,, (zx) 会 给 出 zx 的 唯一 的 ww 位 无 符号 表示 。 
相似 地 ， 当 并 满足 TMi 委 z 委 TITMazu， 困 数 T2B,, (zx) 会 给 出 xz 的 唯一 的 多 位 补 码 表示 。 

现在 ， 将 函数 T2U 定义 为 T2U, (x) 二 B2U,(T2B, (zx))。 这 个 函数 的 输入 是 一 个 
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TMin, 一 TMazx 的 数 ， 结 果 得 到 一 个 0 一 UMaz。 的 值 ， 这 里 两 个 数 有 相同 的 位 模式 ， 除 
了 参数 是 无 符号 的 ， 而 结果 是 以 补 码 表示 的 。 类 似 地 ， 对 于 0 一 UMaz。 之 间 的 值 xz， 定义 函 
数 U2T, 为 U2T,(x) 二 B2T,(U2B,(x))。 生 成 一 个 数 的 无 符号 表示 和 xz 的 补 码 表示 相同 。 

继续 我 们 前 面 的 例子 ， 从 图 2-15 中 ， 我们 看 到 T2Ui (一 12 345) 王 53 191， 并 且 
U2T16(53 191) 王 一 12 345。 也 就 是 说 ， 十 六 进 制 表示 写作 0xcFc7 的 16 位 位 模式 既是 
一 12 345 的 补 码 表示 ， 又 是 53 191 的 无 符号 表示 。 同 时 请 注意 12 345 十 53 191= 二 65 536 == 
2 。 这 个 属性 可 以 推广 到 给 定位 模式 的 两 个 数值 ( 补 码 和 无 符号 数 ) 之 间 的 关系 。 类 似 地 ， 
从 图 2-14 我 们 看 到 T2U, (一 1)= 二 4 294 967 295， 并 且 U2T; (4 294 967 295) 王 一 1。 也 就 是 
说 ， 无 符号 表示 中 的 UMaz 有 着 和 补 码 表示 的 一 1 相同 的 位 模式 。 我 们 在 这 两 个 数 之 间 也 
能 看 到 这 种 关系 : 1 十 UMaz 一 27。 

接 下 来 ,我们 看 到 取 数 U2T 描述 了 从 无 符号 数 到 补 码 的 转换 ， 而 T2U 描述 的 是 补 码 
到 无 符号 的 转换 。 这 两 个 函数 描述 了 在 大 多 数 C 语言 实现 中 这 两 种 数据 类 型 之 间 的 强制 类 
型 转换 效果 。 
练习 题 2. 19 利用 你 解答 练习 题 2. 17 时 填写 的 表格 ， 填 写 下 列 描述 函数 T2Us 的 表格 。 








通过 上 述 这 些 例子 ,我 们 可 以 看 到 给 定位 模式 的 补 码 与 无 符号 数 之 间 的 关系 可 以 表示 
为 函数 T2U 的 一 个 属性 : 
原理 : 补 码 转换 为 无 符号 数 
对 满足 TMin,, 夺 Xx 志 TMax 的 xX 有 : 
0 (2.5) 
工 ， Sy 
比如 ， 我 们 看 到 T2Uis (一 12 345) 三 一 12 345 十 2” 二 53 191， 同 时 T2U (一 1 三 一 1 十 
2* =UMazx,,。 
该 属性 可 以 通过 比较 公式 (2. 1) 和 公式 (2. 3) 推 导出 来 。 
推导 : 补 码 转换 为 无 符号 数 
比较 等 式 (2. 1) 和 等 式 (2. 3) ， 我 们 可 以 发 现 对 于 位 模式 工 ， 如 果 我 们 计算 B2U., (x) 一 
B2T, (x) 之 差 ， 从 0 到 w 一 2 的 位 的 加 权 和 将 互相 抵消 掉 ， 剩 下 一 个 值 :， B2U.. (zx) 一 B2T., (x) 二 
Xw_1(2” 1 一 (一 2*!1)) 二 zx。_12*。 这 就 得 到 一 个 关系 : B2U,, (x)= 二 x,_12* 十 B2T,,(X)。 我 
们 因此 就 有 
BU C122B haa = LT2Us (a = (2 和 
根据 公式 (2. 5) 的 两 种 情况 ,在 z 的 补 码 表示 中 ， 位 x。-1 决 定 了 x 是 否 为 负 。 部 
比如 说 ， 图 2-16 比较 了 当 w= 二 4 时 函数 B2U 和 B2T 是 如 何 将 数值 变 成 位 模式 的 。 对 
补 码 来 说 ， 最 高 有 效 位 是 符号 位 ， 我 们 用 带 向 左 箭头 的 条 来 表示 。 对 于 无 符号 数 来 说 ， 最 
高 有 效 位 是 正 权 重 ， 我 们 用 带 辐 右 的 箭头 的 条 来 表示 。 从 补 码 变 为 无 符号 数 ， 最 高 有 效 位 


第 2 草 信息 的 表示 和 处 理 5] 


的 权重 从 一 8 变 为 十 8。 因 此 ， 补 码 表示 的 负数 如 果 看 成 无 符号 数 ， 值 会 增加 2 三 16。 因 
而 ， 一 5 变 成 了 十 11， 而 一 1 变 成 了 十 15。 
2 

20=I 珍 


一 一 7 653-—4 一 3 OO 





[1011] 


[1111] 





图 2-16 ”比较 当 w==4 时 无 符号 表示 和 补 码 表示 (对 补 码 和 无 符号 数 来 说 ， 
最 高 有 效 位 的 权重 分 别 是 一 8 和 十 8， 因 而 产生 一 个 差 为 16) 


图 2-17 说 明了 函数 T2U 的 一 般 行为 。 如 图 所 示 ， 当 将 一 个 有 符号 数 映射 为 它 相 应 的 

无 符号 数 时 ， 负 数 就 被 转换 成 了 大 的 正 数 ， 而 非 负数 会 保持 不 变 。 

攻 滞 练习 题 2.20 请 说 明 等 式 (2.5) 是 如 何 应 用 到 解答 练习 题 2. 19 时 生成 的 表格 中 的 各 项 的 。 
反 过 来 看 ， 我 们 希望 推导 出 一 个 无 符号 数 x 和 与 之 对 应 的 有 符号 数 U2T,(w) 之 则 的 关系 : 
原理 : 无 符号 数 转换 为 补 码 
对 满足 0 三 wu 二 UMazx, 的 wu 有 : 

u,， u TMax,, 
U2T.,(u) = (2.7) 
WO— 2" 区 TMax,, 
该 原理 证 明 如 下 : 
推导 无 符号 数 转换 为 补 码 
设 x 王 U2B(x) ， 这 个 位 向 量 也 是 U2T.(w) 的 补 码 表示 。 公 式 (2. 1) 和 公式 (2. 3) 结 合 起 来 有 


UT KM 三 一 到 2 站 (2 .8) 
在 的 无 符号 表示 中 ， 对 公式 (2.7) 的 两 种 情况 来 说 ,位 wi1 决 定 了 是否 大 于 
TMas.,=2* "=], 画 


图 2-18 说 明了 函数 U2T 的 行为 。 对 于 小 的 数 ( 二 TMax,,)， 从 无 符号 到 有 符号 的 转换 
将 保留 数字 的 原 值 。 对 于 大 的 数 ( 二 TMax,)， 数 字 将 被 转换 为 一 个 负数 值 。 





ph 
0! 2” 无 符号 数 无 符号 数 2 wl 
补 码 0 0 0 0 补 码 
_Dwr1 _ owl 
图 2-17 从 补 码 到 无 符号 数 的 转换 。 函 数 图 2-18 从 无 符号 数 到 补 码 的 转换 。 函 数 U2T 


T2U 将 负数 转换 为 大 的 正 数 把 大 于 2” 一 1 的 数字 转换 为 负 值 
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总 结 一 下 ， 我 们 考虑 无 符号 与 补 码 表 示 之 间 互 相 转 换 的 结果 。 对 于 在 范围 0 二 x 过 
TMazx 之 内 的 值 x 而 言 ， 我 们 得 到 T2U, (x)= 二 x 和 U2T, (zx)= 二 =x。 也 就 是 说 ， 在 这 个 
围 内 的 数字 有 相同 的 无 符号 和 补 码 表示 。 对 于 这 个 范围 以 外 的 数值 ， 转 换 需 要 加 上 或 者 减 
去 2*。 例 如 ， 我 们 有 T2U。( 一 1) 三 一 1 十 2 三 UMazu 一 一 最 靠近 0 的 负数 映射 为 最 大 的 无 
符号 数 。 在 男 一 个 极端 ， 我 们 可 以 看 到 T2U, (TMin,)= 二 一 2*! 十 2*= 二 2* 1 二 TMazx, 十 
1 一 一 最 小 的 负数 映射 为 一 个 刚好 在 补 码 的 正 数 范 围 之 外 的 无 符号 数 。 使 用 图 2-15 的 示 
例 ， 我 们 能 看 到 T2Ui, (一 12 345) 王 65 563 十 一 12 345 一 53 191 。 


2.2.5 C 语 言 中 的 有 符号 数 与 无 符号 数 


如 图 2-9 和 图 2-10 所 示 ，C 语言 文 持 所 有 整 型 数据 类 型 的 有 符号 和 无 符号 运算 。 尺 管 
C 语言 标准 没有 指定 有 符号 数 要 采用 某 种 表示 ， 但 是 几乎 所 有 的 机 器 都 使 用 补 码 。 通 常 ， 
大 多 数 数字 都 默认 为 是 有 符号 的 。 例 如 ， 当 声明 一 个 像 12345 或 者 0x1A2B 这 样 的 常量 时 ， 
这 个 值 就 被 认为 是 有 符号 的 。 要 创建 一 个 无 符号 和 常量， 必须 加 上 后 缀 字符 “U ”或 者 “u’， 
例如 ，12345U 或 者 0x1A2Bu。 

C 语言 允许 无 符号 数 和 有 符号 数 之 间 的 转换 。 虽 然 C 标准 没有 精确 规定 应 如 何 进行 这 
种 转换 ， 但 大 多 数 系统 遵循 的 原则 是 底层 的 位 表示 保持 不 变 。 因 此 ， 在 一 台 采 用 补 码 的 机 
句 上 ， 当 从 无 符号 数 转换 为 有 符号 数 时 ， 效 果 就 是 应 用 函数 U2T,,， 而 从 有 符号 数 转换 为 
无 符号 数 时 ， 就 是 应 用 函数 T2U.， 其 中 也 表示 数据 类 型 的 位 数 。 

显 式 的 强制 类 型 转换 就 会 导致 转换 发 生 ， 就 像 下 面 的 代码 : 
int tx, ty; 
unsigned ux, uy; 


tx = (int) ux; 
uy = (unsigned) ty; 


男 外 ， 当 一 种 类 型 的 表达 式 被 赋值 给 男 外 一 种 类 型 的 变量 时 ， 转 换 是 隐 式 发 生 的 ， 就 
像 下 面 的 代码 : 


int tx, ty; 
unsigned ux, uy; 


由 大 二 局 一 


tx = ux; /* Cast to Signed */ 
uy = ty; /* Cast to unsigned */ 


当 用 printf 输出 数值 时 ， 分别 用 指示 符 8d、%u 和 sx 以 有 符号 十 进 制 、 无 符号 十 进 制 
和 十 六 进 制 格式 输出 一 个 数字 。 注 意 printf 没有 使 用 任何 类 型 信息 ， 所 以 它 可 以 用 指示 
符 %u 来 输出 类 型 为 int 的 数值 ， 也 可 以 用 指示 符 %q 输出 类 型 为 unsigned 的 数值 。 例 如 ， 
考虑 下 面 的 代码 : 

1 nt EK = 一 二 
unsigned u = 2147483648; /* 2 to the 3ist */ 


nN 一 


Printf("x = %u = %d\n", x, xX); 
printf("u = %u = %d\n", u, u); 
当 在 一 个 32 位 机 器 上 运行 时 ， 它 的 输出 如 下 : 


X = 4294967295 = -1 
u = 2147483648 = -2147483648 


wm A Ww N 


第 2 章 信息 的 表示 和 处 理 53 


在 这 两 种 情况 下 ，printf 首先 将 这 个 字 当 作 一 个 无 符号 数 输出 ， 然 后 把 它 当 作 一 个 有 
符号 数 输出 。 以 下 是 实际 运行 中 的 转换 函数 : T2Ua (一 1) 一 UMazxs; 二 2* 一 1 和 U2Ts; (2 ) 二 
2 一 255 一 一 252 — TMins 。 

由 于 C 语言 对 同时 包含 有 符号 和 无 符号 数 表达 式 的 这 种 处 理 方式 ， 出 现 了 一 些 奇特 的 
行为 。 当 执行 一 个 运算 时 ， 如 果 它 的 一 个 运算 数 是 有 符号 的 而 另 一 个 是 无 符号 的 ， 那么 C 
语言 会 隐 式 地 将 有 符号 参数 强制 类 型 转换 为 无 符号 数 ， 并 假设 这 两 个 数 都 是 非 负 的 ， 来 执 
行 这 个 运算 。 就 像 我 们 将 要 看 到 的 ， 这 种 方法 对 于 标准 的 算术 运算 来 说 并 无 多 大 差异 ,但 
是 对 于 像 二 和 二 这 样 的 关系 运算 符 来 说 ， 它 会 导致 非 直 观 的 结果 。 图 2-19 展示 了 一 些 关 
系 表达 式 的 示例 以 及 它们 得 到 的 求 值 结果 ， 这 里 假设 数据 类 型 int 表示 为 32 位 补 码 。 考 
虑 比较 式 - 1<0U。 因 为 第 二 个 运算 数 是 无 符号 的 ， 第 一 个 运算 数 就 会 被 隐 式 地 转换 为 无 符 
号 数 ， 因 此 表达 式 就 等 价 于 4294967295U<0U( 回 想 T2U, (一 1) 二 UMazx,)， 这 个 答案 显然 
是 错 的 。 其 他 那些 示例 也 可 以 通过 相似 的 分 析 来 理解 。 


2147483647 -2147483647-1 


21474836470U -2147483647-1 
2147483647 
ll 





(unsigned) -1 


图 2-19 CC 语言 的 升级 规则 的 效果 
注 ; 非 直观 的 情况 标注 了 “* ”。 当 一 个 运算 数 是 无 符号 的 时 候 ， 另 一 个 运算 数 也 被 隐 式 强制 转换 为 无 符号 。 
将 TMinss 写 为 -2147483647-1 的 原因 请 参见 网 络 旁 注 DATA :TMIN.， 


碟 汉 练习 题 2.21 假设 在 采用 补 码 运算 的 32 位 机 器 上 对 这 些 表 达 式 求 值 ， 按 照 图 2-19 的 
格式 填写 下 表 ， 描 述 强 制 类 型 转换 和 关系 运算 的 结果 。 


类 型 
-2147483647-1 == 2147483648U 


-2147483647-1 < 2147483647 


-2147483647-1lU < 2147483647 
-2147483647-1 < -2147483647 
-2147483647-1U < -2147483647 





IN C 语言 中 TMin 的 写法 

在 图 2-19 和 练习 题 2. 21 中 ， 我 们 很 小 心地 将 TMinss 写 成 -2147483647-1。 为 什么 
不 简单 地 写成 -2147483648 或 者 0x80000000? 看 一 下 C 头 文件 limits.h， 注意 到 它们 
使 用 了 跟 我 们 写 TMinss。 和 TIMaxss 类 似 的 方法 ， 


/* Minimum and maximum Values a ‘signed int' can hold. */ 
#define INT_MAX 2147483647 
#define INT_MIN (-INT_MAX — 1) 


不 幸 的 是 ， 补 码 表示 的 不 对 称 性 和 CC 语言 的 转换 规则 之 间 奇 怪 的 交互 ， 人 迫使 我 们 用 
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这 种 不 寻常 的 方式 来 写 TMins, 。 虽 然 理 解 这 个 问题 需要 我 们 钻研 C 语言 标准 的 一 些 比 
较 隐 睡 的 角落 ,但 是 它 能 够 帮助 我 们 充分 领会 整数 数据 类 型 和 表示 的 一 些 细微 之 处 。 


2.2.6 扩展 一 个 数字 的 位 表示 

一 个 常见 的 运算 是 在 不 同 字 长 的 整数 之 间 转 换 ， 同 时 又 保持 数值 不 变 。 当 然 ， 当 目标 
数据 类 型 太 小 以 至 于 不 能 表示 想 要 的 值 时 ， 这 根本 就 是 不 可 能 的 。 然 而 ， 从 一 个 较 小 的 数 
据 类 型 转换 到 一 个 较 大 的 类 型 ， 应 该 总 是 可 能 的 。 

要 将 一 个 无 符号 数 转换 为 一 个 更 大 的 数据 类 型 ， 我 们 只 要 简单 地 在 表示 的 开头 添加 0。 
这 种 运算 被 称 为 零 扩 展 (zero extension) ， 表 示 原 理 如 下 : 

原理 : 无 符号 数 的 零 扩 展 

定义 宽度 为 tw 的 位 向 量 区 二 [us_1，uw_s，…，Uo] 和 宽度 为 Ww 的 位 向 量 妈 二 [0，…， 
0,， Us Uw2z，"…，Uo ]， 其 中 忆 全 友 。 则 B2U, (GD) 一 了 B2U (x )。 

按照 公式 (2. 1)， 该 原理 可 以 看 作 是 直接 遵循 了 无 符号 数 编码 的 定义 。 

要 将 一 个 补 码 数字 转换 为 一 个 更 大 的 数据 类 型 ， 可 以 执行 一 个 符号 扩展 (sign exten- 
sion) ， 在 表示 中 添加 最 高 有 效 位 的 值 ， 表 示 为 如 下 原理 。 我 们 用 蓝 色 标 出 符号 位 +。 来 
突出 它 在 符号 扩展 中 的 角色 。 

原理 : 补 码 数 的 符号 扩展 

定义 宽度 为 w 的 位 向 量 工 二 [7 15 TF» “""*» Xo 和 宽度 为 也 的 位 向 量 工 一 [ [和 


9 2) = BT (FE) 
例如 ， 考 虑 下 面 的 代码 : 
| short sx = -12345; /* -12345 */ 
2 unsigned short usx = sx; /* 53191 */ 
3 int x = sx; /* 一 12345 */ 
4 unsigned ux = USX; /* 53191 */ 
5 
6 printf("sx = %d:\t", sx); 
7 show_bytes((byte_pointer) &sx, sizeof (short)); 
8 printf("usx = hu:\t", usx); 
0 show_bytes((byte_pointer) &usx, sizeof (unsigned short)); 
10 printf("x = %d:\t", x); 
11 


show_bytes((byte_pointer) &x, sizeof (int)); 
printe (mw = MisNtr, wy)s 
13 show_bytes((byte_pointer) &ux, sizeof (unsigned)); 


在 采用 补 码 表示 的 32 位 大 端 法 机 顺 上 运行 这 段 代 码 时 ， 打 印 出 如 下 输出 : 


一 到 
人 


sx = =12345: cf ¢7 
usx = 53191 : cf c7 
X = =12345b: ff ff ct ¢c7 
ux = 53191: 00 00 cf c7 


我 们 看 到 ， 尽 管 一 12 345 的 补 码 表示 和 53 191 的 无 符号 表示 在 16 位 字 长 时 是 相同 的 ， 但 是 
在 32 位 字 长 时 却 是 不 同 的 。 特 别 地 ， 一 12 345 的 十 六 进 制 表示 为 0xFFFFCFC7， 而 53 191 的 十 
六 进 制 表示 为 0x0000CFC7。 前 者 使 用 的 是 符号 扩展 一 一 最 开头 加 了 16 位 ， 都 是 最 高 有 效 位 1， 
表示 为 十 六 进 制 就 是 0xFFFF。 后 者 开头 使 用 16 个 0 来 扩展 ， 表 示 为 十 六 进 制 就 是 0x0000。 

图 2-20 给 出 了 从 字 长 w= 二 3 到 w= 二 4 的 符号 扩展 的 结果 。 位 向 量 L101j] 表 示 值 一 4 十 1= 
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一 3。 对 它 应 用 符号 扩展 ， 得 到 位 向 量 [1101」]， 表 示 的 值 一 8 十 4 十 1 二 一 3。 我 们 可 以 看 到 ， 
对 于 w= 二 4， 最 高 两 位 的 组 合 值 是 一 8 十 4 二 一 4， 与 w= 二 3 时 符号 位 的 值 相同 。 类 似 地 ， 位 
向 量 L111] 和 [L1111j 都 表示 值 一 1。 





= 


[101] 


[1101] 


[111] 


[1111] 





图 2-20 ”从 w=3 到 w==4 的 符号 扩展 示例 。 对 于 w= 二 4， 最 高 两 位 组 合 
权重 为 一 8 十 4 二 一 4， 与 w= 二 3 时 的 符号 位 的 权重 一 样 
有 了 这 个 直觉 ， 我 们 现在 可 以 展示 保持 补 码 值 的 符号 扩展 。 
推导 : 补 码 数值 的 符号 扩展 
今 w 二 包 十 &， 我 们 想 要 证 明 的 是 
BT kl rs se si she sap ve sil | ) = BET ALB st se mo) 
i 


k 次 
下 面 的 证 明 是 对 进行 归纳 。 也 就 是 说 ， 如 果 我 们 能 够 证 明 符 号 扩展 一 位 保持 了 数值 
不 变 ， 那么 符号 扩展 任意 位 都 能 保持 这 种 属性 。 因 此 ， 证明 的 任务 就 变 为 了 : 
B2 Tw (Lt rToi vi sto]) = BT Oaw vay" |) 
用 等 式 (2. 3) 展 开 左 边 的 表达 式 ， 得 到 : 


wl 
B21 a (| 去 。 1 sw! TE :0 | ce Wind -A 十 DB 
1:=0 


ur—2 


=— Tu 2 ri2 
i=0 


uw—2 


=— zx, 1 (2 2) + > xi? 
i=0 


w—2 
= 一 斑 。 Or 十 > 
i=0 


一 BT [ 9 T=2 yes. gi | 
我 们 使 用 的 关键 属性 是 2* 一 2”!==2*!。 因 此 ， 加 上 一 个 权 值 为 一 2* 的 位 ， 和 将 一 个 权 值 为 
一 2 一 ! 的 位 转换 为 一 个 权 值 为 2”! 的 位 ， 这 两 项 运算 的 综合 效果 就 会 保持 原始 的 数值 。 。 罩 
让 练习 题 2 22 ”通过 应 用 等 式 (2. 3)， 表 明 下 面 每 个 位 向 量 都 是 一 5 的 补 码 表示 。 
A. [1011| 
B. [11011| 
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CL lLOLY 

可 以 看 到 第 二 个 和 第 三 个 位 向 量 可 以 通过 对 第 一 个 位 向 量 做 符号 扩展 得 到 。 

值得 一 提 的 是 ， 从 一 个 数据 大 小 到 男 一 个 数据 大 小 的 转换 ， 以 及 无 符号 和 有 符号 数字 
之 间 的 转换 的 相对 顺序 能 够 影响 一 个 程序 的 行为 。 考 虑 下 面 的 代码 : 


nn WW NN 


short sx = -12345; /* -12345  */ 
unsigned uy = sx; /* Mystery! */ 


printft"ny = hu \t"”, uy}; 
show_bytes((byte_pointer) &uy, sizeof (unsigned)); 


在 一 台大 端 法 机 器 上 ， 这 部 分 代码 产生 如 下 输出 : 
uy = 4294954951: ff ff cf c7 


这 表明 当 把 short 转换 成 unsigned 时， 我 们 先 要 改变 大 小 ， 之 后 再 完成 从 有 符号 到 
无 符号 的 转换 。 也 就 是 说 (unsigned) sx 等 价 于 (unsigned) (int) sx， 求 值得 到 
4 294 954 951， 而 不 等 价 于 (unsigned) (unsigned short) sx， 后 者 求 值 得 到 53 191。 事 
实 上 ， 这 个 规则 是 C 语言 标准 要 求 的 。 
花 s 测 练习 题 2.23 考虑 下 面 的 C 函数 : 


int funi(unsigned Word) f 


} 


return (int) ((word << 24) >> 24) ; 


int fun2(unsigned word) { 


} 


return ((int) word << 24) >> 24; 


假设 在 一 个 采用 补 码 运算 的 机 器 上 以 32 位 程序 来 执行 这 些 函 数 。 还 假设 有 符号 数值 
的 右 移 是 算术 右 移 ， 而 无 符号 数值 的 右 移 是 逻辑 右 移 。 


A. 


BB; 


2 


填写 下 表 ， 说 明 这 些 函 数 对 几 个 示例 参数 的 结果 。 你 会 发 现 用 十 六 进 制 表示 来 做 
会 更 方便 ， 只 要 记 住 十 六 进 制 数字 8 到 下 的 最 高 有 效 位 等 于 1。 











Ox000000C9 
OxEDCBA987 


用 语言 来 描述 这 些 函 数 执行 的 有 用 的 计算 。 
截断 数字 





假设 我 们 不 用 额外 的 位 来 扩展 一 个 数值 ， 而 是 减少 表示 一 个 数字 的 位 数 。 例 如 下 面 代 
码 中 这 种 情况 : 


1 
2 
3 


int x = 53191; 
short sx = (short) x; /* -12345 */ 
int y = sx; /* 一 12345 */ 


当 我 们 把 x 强制 类 型 转换 为 short 时 ， 我 们 就 将 32 位 的 int 截断 为 了 16 位 的 short int。 


第 2 章 信息 的 表示 和 处 理 57 


就 像 前 面 所 看 到 的 ， 这 个 16 位 的 位 模式 就 是 一 12 345 的 补 码 表示 。 当 我 们 把 它 强 制 类 型 
转换 回 int 时 ， 符 号 扩展 把 高 16 位 设置 为 1， 从 而 生成 一 12 345 的 32 位 补 码 表示 。 

当 将 一 个 包 位 的 数 工 二 [zxwi， TXw—2) “""", zo 截断 为 一 个 位 数字 时 ， 我 们 会 丢弃 高 
w 一 k 人 位， 得 到 一 个 位 问 量 Zz 一 [zi， Xk—29 “3 SB | 截断 一 个 数字 可 能 会 改变 它 的 
值 一 一 溢出 的 一 种 形式 。 对 于 一 个 无 符号 数 ， 我 们 可 以 很 容易 得 出 其 数值 结果 。 

原理 : 截断 无 符号 数 

夺 工 等 于 位 何 量 [L X=-1， Xw—-29 """, Zo) 而 是 将 其 截断 为 kk 位 的 结果 : 区 一 [ziai， 
Zooy ww Zoo]。 令 =B2U (7z), x =B2U,(z'), 则 w= 二 x mod 24。 

该 原理 背后 的 直觉 就 是 所 有 被 截 去 的 位 其 权重 形式 都 为 2 ， 其 中 i 三 ， 因 此 ， 每 一 个 
权 在 取 模 操作 下 结果 都 为 零 。 可 用 如 下 推导 表示 : 

推导 : 截断 无 符号 数 

通过 对 等 式 (2. 1) 应 用 取 模 运算 就 可 以 看 到 


册 


TE 


B2U Ca i ri ws |) Hod 2 = | Di2’ |mod 2 
i 
= zi2 |mod 2 
= 必 ,六 当 
= B2U,([ x Sr 3 sao | 
在 这 段 推导 中 ， 我 们 利用 了 属性 : 对 于 任何 i 三 &，2' mod 2 一 0。 加 


补 码 截断 也 具有 相似 的 属性 ， 只 不 过 要 将 最 高 位 转换 为 符号 位 : 

原理 : 截断 补 码 数 值 

邻 工 等 于 位 向 量 [ xX。 i 9 Xiv—29 "ys Eos 而 X' 是 将 其 截断 为 k 位 的 结果 : x' =[zxii 9 
Za "Xoj]。 令 z=B2U,(7x), x =B2Ti(z'), 则 z=U2T(z mod 24) 。 

在 这 个 公式 中 ，x mod 2 将 是 0 到 2 一 1 之 间 的 一 个 数 。 对 其 应 用 肾 数 U2T 产生 的 
效果 是 把 最 高 有 效 位 zi 的 权重 从 2” 转变 为 一 2 ”“”。 举 例 来 看 ， 将 数值 z= 二 53 191 从 
int 转换 为 short。 由 于 2" 二 65 536 之 zx， 我们 有 x mod 2 ”一 z。 但 是 ， 当 我 们 把 这 个 数 
转换 为 16 位 的 补 码 时 ， 我 们 得 到 z = 二 53 191 一 65 536 王 一 12 345。 

推导 : 截断 补 码 数值 

使 用 与 无 符号 数 截断 相同 的 参数 ， 则 有 

BA Ox sy vs moud 2 一 再 2 | es w vw a yp | 
也 就 是 ， zx mod 2 能够 被 一 个 位 级 表示 为 Lx4_1， X29 “""), Zzoj 的 无 符号 数 表示 。 将 其 转 


换 为 补 码 数 则 有 x' = 二 U2T,(x mod 2*)。 加 
总 而 言 之 ， 无 符号 数 的 截断 结果 是 : 
BOU, | ws se an sry | = BU RT Ry sR a sy | mod 2 (2. 9) 
而 补 码 数字 的 截断 结果 是 : 


有 2T [we sms ostT0 | = U2T (B22U., Ca sy Wan yro |) mod 2*) (2.10) 
ES 练习 题 2. 24 假设 将 一 个 4 位 数值 (用 十 六 进 制 数字 0~ 下 表示 ) 截 断 到 一 个 3 位 数值 
(用 十 六 进 制 数字 0~7 表示 )。 填 写 下 表 ， 根 据 那 些 位 模式 的 无 符号 和 补 码 解释 ， 说 

明 这 种 截断 对 某 些 情况 的 结果 。 
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解释 如 何 将 等 式 (2. 9) 和 等 式 (2.10) 应 用 到 这 些 示 例 上 。 


2.2.8 关于 有 符号 数 与 无 符号 数 的 建议 


就 像 我 们 看 到 的 那样 ， 有 符号 数 到 无 符号 数 的 隐 式 强制 类 型 转换 导致 了 某 些 非 直观 的 
行为 。 而 这 些 非 直观 的 特性 经 常 导 致 程序 错误 ， 并 且 这 种 包含 隐 式 强制 类 型 转换 的 细微 差 
别 的 错误 很 难 被 发 现 。 因 为 这 种 强制 类 型 转换 是 在 代码 中 没有 明确 指示 的 情况 下 发 生 的 ， 
程序 员 经 常 忽 视 了 它 的 影 啊 。 

下 面 两 个 练习 题 说 明了 某 些 由 于 隐 式 强制 类 型 转换 和 无 符号 数据 类 型 造成 的 细微 的 错误 。 
练习 题 2.25 考虑 下 列 人 代码， 这 段 代 码 试 图 计算 数组 a 中 所 有 元 素 的 和 ， 其 中 元 素 的 

数量 由 参数 length 给 出 。 


/* WARNING: This is buggy code */ 

float sum_elements(float a[], unsigned length) { 
Tn 3 
float result = 0; 





for (i = 0; i <= length-1; i++) 
result += al[il]; 
return result; 


» 

当 参 数 length 等 于 0 时， 运行 这 段 代 码 应 该 返回 0.0。 但 实际 上 ， 运 行 时 会 遇 
到 一 个 内 存 错误 。 请 解释 为 什么 会 发 生 这 样 的 情况 ， 并 且说 明 如 何 修 改 代码 。 

四 练习 题 2.26 现在 给 你 一 个 任务 ， 写 一 个 函数 用 来 判定 一 个 字符 串 是 否 比 另 一 个 更 
长 。 前 提 有 是 你 要 用 字符 串 库 函数 strlen， 它 的 声明 如 下 : 


/* Prototype for library function strlen */ 
size_t strlen(const char *s); 


最 开始 你 写 的 函数 是 这 样 的 : 


/* Determine whether string s is longer than string t */ 
/* WARNING: This function is buggy */ 
int strlonger(char *s, char *t) { 

return strlen(s) - strlen(t) > 0; 


1 
2 
3 
4 
5 
6 
7 
8 
9 





} 


当 你 在 一 些 示 例 数据 上 测试 这 个 函数 时 ， 一 切 似 乎 都 是 正确 的 。 进 一 步 研 究 发 现 
在 头 文件 stdio.h 中 数据 类 型 size 七 是 定义 成 unsigned int 的 。 
A. 在 什么 情况 下 ， 这 个 函数 会 产生 不 正确 的 结果 ? 
B. 解释 为 什么 会 出 现 这 样 不 正确 的 结果 。 
C. 说 明 如 何 修 改 这 段 代 码 好 让 它 能 可 靠 地 工作 。 
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EE 函数 getpeername 的 安全 漏洞 
2002 年 ， 从 事 FreeBSD 开源 操作 系统 项 目的 程序 员 意 识 到 ， 他 们 对 getpeername 
函数 的 实现 存在 安全 漏洞 。 代 码 的 简化 版 本 如 下 : 
/* 
* Tllustration of code vulnerability similar to that found in 


* FreeBSD's implementation of getpeername() 


*/ 


/* Declaration of library function memcpy */ 
void *memcpy(void *dest, void *src, size_t n); 


9 /* Kernel memory region holding user-accessible data */ 
10  #define KSIZE 1024 
11 char kbuf [KSIZE]; 


13 /* Copy at most maxlen bytes from kernel region to user buffer */ 
14 int copy_from_kernel(void *user_dest, int maxlen) { 


15 /* Byte count len is minimum of buffer size and maxlen */ 
16 int len = KSIZE < maxlen ?了 KSIZE : maxlen; 

17 memcpy (user._dest, kbuf, len); 

18 return len; 

二 


在 这 段 代码 里 ， 第 7 行 给 出 的 是 库 函 数 memcpy 的 原型 ， 这 个 函数 是 要 将 一 段 指定 
长 度 为 卫 的 字 节 从 内 存 的 一 个 区 域 复制 到 另 一 个 区 域 。 

从 第 14 行 开始 的 函数 copy from kernel 是 要 将 一 些 操作 系统 内 核 维护 的 数据 复 
制 到 指定 的 用 户 可 以 访问 的 内 存 区 域 。 对 用 户 来 说 ， 大 多 数 内 核 维 护 的 数据 结构 应 该 是 
不 可 读 的 ， 因 为 这 些 数据 结构 可 能 包含 其 他 用 户 和 系统 上 运行 的 其 他 作业 的 敏感 信息 ， 
但 是 显示 为 kbuf 的 区 域 是 用 户 可 以 读 的 。 参 数 maxlen 给 出 的 是 分 配给 用 户 的 缓冲 区 
的 长 度 ， 这 个 缓冲 区 是 用 参数 user dest 指示 的 。 然 后 ， 第 16 行 的 计算 确保 复制 的 字 
节 数 据 不 会 超出 源 或 者 目标 缓冲 区 可 用 的 范围 。 

不 过 ， 人 假设 有 些 怀 有 恶意 的 程序 员 在 调用 copy from _ kernel 的 代码 中 对 maxlen 
使 用 了 负数 值 ， 那 么 ， 第 16 行 的 最 小 值 计 算 会 把 这 个 值 赋 给 len， 然 后 len 会 作为 参 
数 nn 被 传递 给 memcpy。 不 过 ， 请 注意 参数 nn 是 被 声明 为 数据 类 型 size 七 的 。 这 个 数据 
类 型 是 在 库 文件 stdio.h 中 (通过 typedef) 被 声明 的 。 典 型 地 ， 对 32 位 程序 它 被 定义 
为 unsigned int， 对 64 位 程序 定义 为 unsigned long。 有 既然 参数 n 是 无 符号 的 ， 那 么 
memcpy 会 把 它 当 作 一 个 非常 大 的 正 整 数 ， 并 且 试 图 将 这 样 多 字 节 的 数据 从 内 核 区 域 复 
制 到 用 户 的 缓冲 区 。 虽 然 复 制 这 么 多 字 节 (至 少 2 个 ) 实 际 上 不 会 完成 ， 因 为 程序 会 遇 
到 进程 中 非法 地 址 的 错误 ， 但 是 程序 还 是 能 读 到 它 没 有 被 授权 的 内 核 内 存 区 域 。 

我 们 可 以 看 到 ， 这 个 问题 是 由 于 数据 类 型 的 不 匹配 造成 的 : 在 一 个 地 方 ， 长 度 参数 
是 有 符号 数 ; 而 另 一 个 地 方 ， 它 又 是 无 符号 数 。 正 如 这 个 例子 表明 的 那样 ， 这 样 的 不 匹 
配 会 成 为 缺陷 的 原因 ， 甚 至 会 导致 安全 漏洞 。 痒 运 的 是 ， 还 没有 案例 报告 有 程序 员 在 
FreeBSD 上 利用 了 这 个 漏洞 。 他 们 发 布 了 一 个 安全 建议 ，“FreeBSD-SA-02:38. signed- 
error”， 建 议 系 统管 理 员 如 何 应 用 补丁 消除 这 个 漏洞 。 要 修正 这 个 缺陷 ， 只 要 将 copy 
from kernel 的 参数 maxlen 声明 为 类 型 size 七 ， 也 就 是 与 memcpy 的 参数 ni 一致。 同 
时 ， 我 们 也 应 该 将 本 地 变量 len 和 返回 值 声 明 为 size t。 
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我 们 已 经 看 到 了 许多 无 符号 运算 的 细微 特性 ， 尤 其 是 有 符号 数 到 无 符号 数 的 隐 式 转 
换 ， 会 导致 错误 或 者 漏洞 的 方式 。 人 避免 这 类 错误 的 一 种 方法 就 是 绝 不 使 用 无 符号 数 。 实 际 
上 ， 除了 C 以 外 很 少 有 语言 支持 无 符号 整数 。 很 明显 ， 这 些 语言 的 设计 者 认为 它们 带 来 的 
麻烦 要 比 益处 多 得 多 。 比 如 ，Java 只 支持 有 符号 整数 ， 并 且 要 求 以 补 码 运算 来 实现 。 正 稍 
的 右 移 运算 符 >> 被 定义 为 执行 算术 右 移 。 特 殊 的 运算 符 >>> 被 指定 为 执行 逻辑 右 移 ，。 

当 我 们 想 要 把 字 仅 仅 看 做 是 位 的 集合 而 没有 任何 数字 意义 时 ， 无 符号 数值 是 非常 有 用 
的 。 例 如 ， 往 一 个 字 中 放 入 描述 各 种 布尔 条 件 的 标记 (flag) 时 ， 就 是 这 样 。 地 址 目 然 地 就 
是 无 符号 的 ， 所 以 系统 程序 员 发 现 无 符号 类 型 是 很 有 帮助 的 。 当 实现 模 运 算 和 多 精度 运算 
的 数学 包 时 ， 数 字 是 由 字 的 数组 来 表示 的 ， 无 符号 值 也 会 非常 有 用 。 


2.3 整数 运算 


许多 刚 入 门 的 程序 员 非 常 惊奇 地 发 现 ， 两 个 正 数 相 加 会 得 出 一 个 负数 ， 而 比较 表达 式 
x<y 和 比较 表达 式 x-y<0 会 产生 不 同 的 结果 。 这 些 属性 是 由 于 计算 机 运算 的 有 限 性 造成 的 。 
理解 计算 机 运算 的 细微 之 处 能 够 帮助 程序 员 编 写 更 可 靠 的 代码 。 


2.3. 1 无 符号 加 法 


考虑 两 个 非 负 整数 zx 和 y， 满 足 0<x+，y 二 2*。 每 个 数 都 能 表示 为 ww 位 无 符号 数字 。 然 而 ， 
如 果 计 算 它 们 的 和 ， 我 们 就 有 一 个 可 能 的 范围 0<zx 十 y<2” 一 2。 表 示 这 个 和 可 能 需要 w 十 1 
人 位。 例如， 图 2-21 展示 了 当 z 和 yy 有 4 位 表示 时 ， 函 数 x 十 y 的 坐标 图 。 参 数 ( 显 示 在 水 平 轴 
上 ) 取 值 范围 为 0 一 15， 但 是 和 的 取 值 范围 为 0 一 30。 函 数 的 形状 是 一 个 有 坡度 的 平面 (在 两 个 维 
度 上 ， 函 数 都 是 线性 的 ) 。 如 果 保 持 和 为 一 个 ww 十 1 位 的 数字 ， 并 且 把 它 加 上 另外 一 个 数值 ， 我 
们 可 能 需要 w 十 2 个 位 ， 以 此 类 推 。 这 种 持续 的 “ 字 长 膨胀 ”意味 着 ， 要 想 完 整地 表示 算术 运 
算 的 结果 ， 我 们 不 能 对 字 长 做 任何 限制 。 一 些 编程 语言 ， 例 如 Lisp， 实 际 上 就 支持 无 限 精度 的 
运算 ， 人 允许 任意 的 (当然 ， 要 在 机 融 的 内 存 限 制 之 内 ) 整 数 运算 。 更 常见 的 是 ， 编 程 语 言 文 持 固 
定 精 度 的 运算 ， 因 此 像 “加 法 ”和 “乘法 ”这 样 的 运算 不 同 于 它们 在 整数 上 的 相应 运算 。 





图 2-21 整数 加 法 。 对 于 一 个 4 位 的 字 长 ， 其 和 可 能 需要 5 位 
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让 我 们 为 参数 工 和 y 定义 运算 十 *， 其 中 0 二 +，y 二 2”， 该 操作 是 把 整数 和 z 十 y 截断 
为 w 位 得 到 的 结果 ， 再 把 这 个 结果 看 做 是 一 个 无 符号 数 。 这 可 以 被 视 为 一 种 形式 的 模 运 
算 ， 对 z 十 y 的 位 级 表示 ， 简 单 丢弃 任何 权重 大 于 2* “的 位 就 可 以 计算 出 和 模 2*。 比 如 ， 
考虑 一 个 4 位 数字 表示 ，z=9 和 y 王 12 的 位 表示 分 别 为 L1001j 和 L1100j。 它 们 的 和 是 21， 
5 位 的 表示 为 L10101]。 但 是 如 果 丢 弃 最 高 位 ， 我们 就 得 到 [L0101]， 也 就 是 说 ， 十进制 值 
的 5。 这 就 和 值 21 mod 16 王 5 一 致 。 
我 们 可 以 将 操作 十 * 描述 为 : 
原理 : 无 符号 数 加 法 
对 满足 0 和 过，y<2” 的 过 和 yy 有: 
， 5 a 正常 
无 十 5y = 一 针尖 
图 2-22 说 明了 公式 (2. 11) 的 这 两 种 情况 ， 左 边 的 和 zZz 十 rty 
y 映射 到 右边 的 无 符号 多 位 的 和 x 十 %y。 正 常情 况 下 zx 十 y 
的 值 保持 不 变 ， 而 溢出 情况 则 是 该 和 数 减 去 2* 的 结果 。 
推导 : 无 符号 数 加 法 
一 般 而 言 ， 我 们 可 以 看 到 ， 如 果 z 十 y 二 2”"， 和 的 ww 十 
1 位 表示 中 的 最 高 位 会 等 于 0， 因 此 丢弃 它 不 会 改变 这 个 数 
值 。 另 一 方面 ， 如 果 2* 过 x 十 y 二 2 ， 和 的 芭 十 1 位 表示 图 2.22 





整数 加 法 和 无 符号 加 法 
中 的 最 高 位 会 等 于 1， 因 此 丢弃 它 就 相当 于 从 和 中 减 去 间 的 关系 。 当 zx 十 y 大 于 
了 2= 而 “了 其 和 溢出 


说 一 个 算术 运算 溢出 ， 是 指 完整 的 整数 结果 不 能 放 到 数据 类 型 的 字 长 限制 中 去 。 如 等 
式 (2. 11) 所 示 ， 当 两 个 运算 数 的 和 为 2” 或 者 更 大 时 ， 就 发 生 了 溢出 。 图 2-23 展示 了 字 长 
w 三 4 的 无 符号 加 法 函数 的 坐标 图 。 这 个 和 是 按 模 2 = 二 16 计算 的 。 当 x 十 y 二 16 时 ,没有 
溢出 ， 并 且 x 十 iy 就 是 z 十 y。 这 对 应 于 图 中 标记 为 “正常 ”的 斜面 。 当 z 十 y 之 16 时 ， 加 
法 溢出 ， 结 果 相 当 于 从 和 中 减 去 16。 这 对 应 于 图 中 标记 为 “溢出 ”的 斜面 。 
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图 2-23 无 符号 加 法 (4 位 字 长 ， 加 法 是 模 16 的 ) 


62 第 一 部 分 程序 结构 和 执行 


当 执 行 C 程序 时 ， 不 会 将 溢出 作为 错误 而 发 信号 。 不 过 有 的 时 候 ， 我们 可 能 希望 判定 
是 否 发 生 了 溢出 。 

原理 : 检测 无 符号 数 加 法 中 的 溢出 

对 在 范围 0( 秋 zz，y 生 UMazr 中 的 工 和 y， 令 5 二 工 十 wy 。 则 对 计算 s， 当 且 仅 当 5 二 六 
(或 者 等 价 地 S<y) 时 ， 发 生 了 溢出 。 

作为 说 明 ， 在 前 面 的 示例 中 ， 我 们 看 到 9 十 :12= 二 5。 由 于 5 二 9,， 我 们 可 以 看 出 发 生 了 

推导 : 检测 无 符号 数 加 法 中 的 洲 出 

通过 观察 发 现 x 十 y 三 z+， 因此 如 果 s 没有 洲 出 ， 我 们 能 够 肯定 s 宇 x+。 男 一 方面 ， 如 果 
s 确实 溢出 了 ， 我 们 就 有 ;二 x 十 y 一 2*。 假 设 y 二 2”*， 我 们 就 有 y 一 2* 二 0， 因 此 三 并 十 
(yy— 2 图 
臣 邓 练习 题 2.27 写 出 一 个 具有 如 下 原型 的 函数 : 


/* Determine whether arguments can be added without overflow */ 
int uadd_ok(unsigned x, unsigned y); 


如 果 和 参数 x 和 y 相 加 不 会 产生 淤 出 ， 这 个 函数 就 返回 1。 

模 数 加 法 形成 了 一 种 数学 结构 ， 称 为 阿 贝 尔 群 (Abelian group)， 这 是 以 丹麦 数学 家 
Niels Henrik Abel(1802 一 1829) 的 名 字 命名 。 也 就 说 ， 它 是 可 交换 的 (这 就 是 为 什么 叫 
“abelian” 的 地方 ) 和 可 结合 的 。 它 有 一 个 单位 元 0， 并 且 每 个 元 素 有 一 个 加 法 逆 元 。 让 我 
们 考虑 ww 位 的 无 符号 数 的 集合 ， 执 行 加 法 运算 十 ;。 对 于 每 个 值 zx， 必然 有 某 个 值 一 &z 满 
足 一 sz 十 %zX 二 0。 该 加 法 的 逆 操 作 可 以 表述 如 下 : 

原理 : 无 符号 数 求 反 

对 满足 0 二 xX 过 2* 的 任意 工 ， 其 凶 位 的 无 符号 逆 元 一 2 由 下 式 给 出 : 

并 TXT 三 0 
i 二 (C2. 123 
2 一 之 ,这 2 

该 结果 可 以 很 容易 地 通过 案例 分 析 推 导出 来 : 

推导 : 无 符号 数 求 反 

当 x 二 0 时 ， 加 法 道 元 显然 是 0。 对 于 z 盖 0， 考 虑 值 2* 一 +。 我 们 观察 到 这 个 数字 在 
0 过 2* 一 zx 过 2* 范围 之 内 ， 并 且 (x 十 2* 一 Xx) mod 2* 二 2* mod 2 一 0。 因 此 ， 它 就 是 过 在 
十 % 下 的 北 元 。 EG 
区 S 练习 题 2. 28 ”我 们 能 用 一 个 十 六 进 制 数字 来 表示 长 度 w= 二 4 的 位 模式 。 对 于 这 些 数 字 

的 无 符号 解释 ， 使 用 等 式 (2.12) 填 写 下 表 ， 给 出 所 示 数 字 的 无 符号 加 法 逆 元 的 位 表示 

(用 十 六 进 制 形式 )。 








十 六 进 制 





2. 3.2 补 码 加 法 
对 于 补 码 加 法 ， 我们 必须 确定 当 结 果 太 大 (为 正 ) 或 者 太 小 (为 负 ) 时 ， 应 该 做 些 什么 。 


第 2 章 信息 的 表示 和 处 理 63 


给 定 在 范围 一 2*” "二 +，y 奈 2” 一 1 之 内 的 整数 值 zx 和 >y， 它 们 的 和 就 在 范围 一 2* 委 z 十 
y 达 2* 一 2 之 内 ， 要 想 准确 表示 ， 可 能 需要 ww 十 1 位 。 就 像 以 前 一 样 ， 我 们 通过 将 表示 截断 
到 ww 位， 来 避免 数据 大 小 的 不 断 扩张 。 然而， 结果 却 不 像 模 数 加 法 那样 在 数学 上 感觉 很 熟 
悉 。 定 义 x 十 hy 为 整数 和 zz 十 y 被 截断 为 ww 位 的 结果 ， 并 将 这 个 结果 看 做 是 补 码 数 。 
原理 : 补 码 加 法 
对 满足 一 2”! 志 Tz，y 生 2” 1 一 1 的 整数 工 和 y， 有 ; 


天 十 yy 一 22， 2 过 并 十 y 正 滋 出 
工 十 wy 一 | 一 2 过奖 十 计 之 2 正 莹 Ces 3 
十 可 十 5 二 一 负 溢 出 
图 2-24 说 明了 这 个 原理 ， 其 中 ， 左 边 的 和 工 十 y x+ty 


的 取 值 范 围 为 一 2* 二 x 十 y 三 2” 一 2， 右 边 显 示 的 是 该 
和 数 截断 为 包 位 补 码 的 结果 。( 图 中 的 标号 “情况 1” 
到 “情况 4” 用 于 该 原理 形式 化 推导 的 案例 分 析 中 。) 
当 和 Xx 十 y 超过 TMazx 时 (情况 4) ， 我 们 说 发 生 了 正 洪 
出 。 在 这 种 情况 下 ， 截 断 的 结果 是 从 和 数 中 减 去 2”。 
当 和 x 十 y 小 于 TMins 时 (情况 1)， 我 们 说 发 生 了 负 溢 
出 。 在 这 种 情况 下 ， 截 断 的 结果 是 把 和 数 加 上 2”。 

两 个 数 的 z 位 补 码 之 和 与 无 符号 之 和 有 完全 相同 
的 位 级 表示 。 实 际 上 ， 大 多 数 计算 机 使 用 同样 的 机 划 
指令 来 执行 无 符号 或 者 有 符号 加 法 。 





推导 : 补 码 加 法 图 2-24 整数 和 补 码 加 法 之 间 的 关系 。 

既然 补 码 加 法 与 无 符号 数 加 法 有 相同 的 位 级 表示 ， 当 = 十 水 于 一 天 -11 时， 产生 

我 们 就 可 以 按 如 下 步骤 表示 运算 十 ,,: 将 其 参数 转换 为 无 负 洲 出 。 当 它 大 于 2” 时 ， 产 
符号 数 ， 执 行 无 符号 数 加 法 ， 再 将 结果 转换 为 补 码 : 生 正 洲 出 

ry UT CT (ry TH Cyyy (2. 14) 


根据 等 式 (2. 6)， 我 们 可 以 把 T2U,(x) 写 成 zx,_12* 十 x， 把 T2U,(y) 写 成 y,_12* 十 y。 

使 用 属性 ， 即 十 * 是 模 2* 的 加 法 ， 以 及 模 数 加 法 的 属性 ， 我 们 就 能 得 到 
rthy = U2T,(T2U, (zx) 二 2T2U。(y)) 
二 U2T,[ (x 12* 十 XT 十 ywi12* 十 y) mod 2” | 
= U2T,[ (z+ y) mod 2” | 
消除 了 xz,_12” 和 y,_12” 这 两 项 ， 因 为 它们 模 2* 等 于 0。 

为 了 更 好 地 理解 这 个 数量 ， 定 义 z 为 整数 和 zx 二 x 十 y,，xz 为 z 二 z mod 2"， 而 > 为 
z 二 U2T,,(z')。 数 值 x 等 于 z 十 vy。 我 们 分 成 4 种 情况 分 析 ， 如 图 2-24 所 示 。 

1) 一 好 过 5 二 一 2 1 。 然 后 ， 我 们 会 有 z 一 2 十 2 。 这 就 得 出 0 委 z 元 一 2 十 22 王 
2”!。 检查 等 式 (2. 7)， 我 们 看 到 = 在 满足 一 z 的 范围 之 内 。 这 种 情况 称 为 负 溢出 (nega- 
tive overflow) 。 我 们 将 两 个 负数 zx 和 >y 相 加 (这 是 我 们 能 得 到 x 二 一 2”' 的 唯一 方式 )， 得 
到 一 个 非 负 的 结果 z = 二 zx 十 y 十 2”*。 

2) 一 区 过 > 给 0 那么 我 们 又 将 有 z= 二 zs 十 25， 得 到 二 2 十 2 二 2 攻 27， 
检查 等 式 (2.7)， 我们 看 到 z 在 满足 z= 二 z' 一 2* 的 范围 之 内 ， 因 此 2 =z 一 2*==z 十 2* 一 
“一 z。 也 就 是 说 ， 我 们 的 补 码 和 z 等 于 整数 和 zx 十 y。 

3) 0 委 z<<2” : 。 那 么 ,我 们 将 有 z 一 =， 得 到 0 二 zx 二 2” : ， 因 此 = =z 一 z。 补 码 和 
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z 又 等 于 整数 和 zx 十 y。 

4) 2" < 委 ><2"。 我 们 又 将 有 = 二 xz， 得 到 2”' 过 z' 过 2*。 但 是 在 这 个 范围 内 ， 我 们 有 
z 二 z 一 2*， 得 到 z 一 z 十 y 一 2 。 这 种 情况 称 为 正 溢出 (positive overflow)。 我 们 将 正 数 > 
和 yy 相 加 (这 是 我 们 能 得 到 zx 之 2” 的 唯一 方式 ) ， 得 到 一 个 负数 结果 > = 二 zx 十 y 一 2”。 国 

图 2-25 展示 了 一 些 4 位 补 码 加 法 的 示例 作为 说 明 。 每 个 示例 的 情况 都 被 标号 为 对 应 
于 等 式 (2. 13) 的 推导 过 程 中 的 情况 。 注 意 2 王 16， 因 此 负 洪 出 得 到 的 结果 比 整数 和 大 16， 
而 正 溢出 得 到 的 结果 比 之 小 16。 我 们 包括 了 运算 数 和 结果 的 位 级 表示 。 可 以 观察 到 ， 能 够 
通过 对 运算 数 执行 二 进 制 加 法 并 将 结果 截断 到 4 位 ， 从 而 得 到 结果 。 


ee 
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图 2-25” 补 码 加 法 示例 。 通 过 执行 运算 数 的 二 进 制 加 法 并 将 结果 截断 到 4 位 ， 
可 以 获得 4 位 补 码 和 的 位 级 表示 
图 2-26 阐述 了 字 长 w= 二 4 的 补 码 加 法 。 运 算数 的 范围 为 一 8 一 7 之 间 。 当 z 十 y 志 一 8 
时 ， 补 码 加 法 就 会 负 溢出 ， 导 致 和 增加 了 16。 当 一 8 委 z 十 y 生 8 时 ， 加 法 就 产生 x 十 y。 当 
ZX 十 y 宇 8， 加 法 就 会 正 溢出 ， 使 得 和 减少 了 16。 这 三 种 情况 中 的 每 一 种 都 形成 了 图 中 的 一 
个 射 面 。 
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图 2-26 ” 补 码 加 法 ( 字 长 为 4 位 的 情况 下 ， 当 z 十 y 二 一 8 时 ， 
产生 负 混 出; XY 十 y 宇 8 时， 产生 正 滋 出 ) 
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等 式 (2. 13) 也 让 我 们 认 出 了 哪些 情况 下 会 发 生 洲 出 : 

原理 : 检测 补 码 加 法 中 的 溢出 

对 满足 TMins 三 T+，y 夺 TMazs 的 工 和 y， 令 5 主 Z 十 sy。 当 且 仅 当 工 0，y0， 但 
ss 人 0 时 ， 计 算 s 发 生 了 正 溢 出 。 当 和 且 仅 当 工 过 0，y 过 0, 但 s 宇 0 时 ， 计算 s 发 生 了 负 溢 出 。 

图 2-25 显示 了 当 w= 二 4 时 ， 这 个 原理 的 例子 。 第 一 个 条 目 是 负 溢 出 的 情况 ， 两 个 负数 
相 加 得 到 一 个 正 数 。 最 后 一 个 条 目 是 正 溢出 的 情况 ， 两 个 正 数 相 加 得 到 一 个 负数 。 

推导 : 检测 补 码 加 法 中 的 溢出 

让 我 们 先 来 分 析 正 溢出 。 如 果 z 关 0，y>0， 而 s 委 0， 那 么 显然 发 生 了 正 滋 出。 反 过 
来 ， 正 溢出 的 条 件 为 : 1)z 盖 0，y>0( 或 者 zx 十 y<TMazr。)，2)s 委 0( 见 公式 (2.13))。 同 
样 的 讨论 也 适用 于 负 滋 出 情况 。 硬 
让 纺 练习 题 2.29 按照 图 2-25 的 形式 填写 下 表 。 分 别 列 出 5 位 参数 的 整数 值 、 整 数 和 与 

补 码 和 的 数值 、 补 码 和 的 位 级 表示 ， 以 及 属于 等 式 (2. 13) 推 导 中 的 哪 种 情况 。 


mm | un 


mo | um 





BF 练习 题 2.30 写 出 一 个 具有 如 下 原型 的 函数 : 
/* Determine whether arguments can be added without overflow */ 
int tadd_ok(int x, int y); 
如 果 参 数 x 和 y 相 加 不 会 产生 溢出 ， 这 个 函数 就 返回 1。 
ES 练习 题 2 31 你 的 同事 对 你 补 码 加 法 溢出 条 件 的 分 析 有 些 不 耐 关 了， 他 给 出 了 一 个 
函数 tadd ok 的 实现 ， 如 下 所 示 : 


/* Determine whether arguments can be added without overflow */ 
/* WARNING: This code is buggy. */ 
int tadd_ok(int x, int y) { 

int Sum = x+y; 

return (sum-x == y) && (sum-y == XxX); 


} 
你 看 了 代码 以 后 笑 了 。 解 释 一 下 为 什么 

有 弹 练习 题 2. 32 你 现在 有 个 任务 ， 编 写 函 数 tsub ok 的 代码 ， 函 数 的 参数 是 x 和 YY， 如 
果 计 算 x-Yy 不 产生 滋 出 ， 函 数 就 返回 1。 假 设 你 写 的 练习 题 2. 30 的 代码 如 下 所 示 : 


/*# Determine whether arguments can be subtracted without overflow */ 
/* WARNING: This code is buggy. */ 
int tsub_ok(int x, int y) { 


return tadd_ok(x, -y); 
} 


x 和 y 取 什么 值 时 ， 这 个 函数 会 产生 错误 的 结果 ? 写 一 个 该 函数 的 正确 版 本 (家 
庭 作 业 2. 74)。 
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2. 3.3 补 码 的 非 


可 以 看 到 范围 在 TMiz 委 z 委 TITMazu 中 的 每 个 数字 xz 都 有 十 & 下 的 加 法 逆 元 ， 我 们 将 
一 ww 表示 记 下 。 
原理 : 补 码 的 非 
对 满足 TMzizs 和 rz 委 TMarzru 的 T， 其 补 码 的 非 一 ,xX 由 下 式 给 出 
iMin,s = TMin.,, 
= | (2. 15) 
we > TMin,, 
也 就 是 说 ， 对 位 的 补 码 加 法 来 说 ，TMin,, 是 自己 的 加 法 的 逆 ， 而 对 其 他 任何 数值 
工 都 有 一 工作 为 其 加 法 的 逆 。 
推导 : 补 码 的 非 
观察 发 现 TMin,, 十 TMa 一 一 22 十 (一 2 1) 一 一 0。 这 将 导致 负 洲 出 ， 因 下 
TMins 十 ,TMin, 二 一 2* 十 2* 二 0。 对 满足 z>TMinu 的 Xx， 数值 一 xz 可 以 表示 为 一 个 多 位 
的 补 码 ， 它 们 的 和 一 x 十 x 二 0。 中 
最 型 练习 题 2.33 我 们 可 以 用 一 个 十 六 进 制 数 字 来 表示 长 度 w= 二 4 的 位 模式 。 根 据 这 些 数 
字 的 补 码 的 解释 ， 填 写 下 表 ， 确 定 所 示 数 字 的 加 法 逆 元 。 





对 于 补 码 和 无 符号 (练习 题 2.28) 非 (negation) 产 生 的 位 模式 ， 你 观察 到 什么 ? 





ae 补 码 非 的 位 级 表示 
计算 一 个 位 级 表示 的 值 的 补 码 非 有 几 种 聪明 的 方法 。 这 些 技术 很 有 用 (例如 当 你 在 
调试 程序 的 时 候 遇 到 值 0xfffffffa)， 同 时 它们 也 能 够 让 你 更 了 解 补 码 表示 的 本 质 。 
执行 位 级 补 码 非 的 第 一 种 方法 是 对 每 一 位 求 补 ， 再 对 结果 加 1。 在 C 语 言 中 ， 我 们 
可 以 说 ， 对 于 任意 整数 值 x， 计算 表达 式 -x 和 ~x+1l1 得 到 的 结果 完全 一 样 。 
下 面 是 一 些 示 例 ， 字 长 为 4: 


[0101] 
[0111] 


[1100] -4 
[0000] 0 
[1000] -8 





从 前 面 的 例子 我 们 知道 0xf 的 补 是 0x0， 而 0xa 的 补 是 0x5， 因 而 0xfffffffa 是 
一 6 的 补 码 表 示 。 

计算 一 个 数 工 的 补 码 非 的 第 二 种 方法 是 建立 在 将 位 向 量 分 为 两 部 分 的 基础 之 上 的 。 假 设 
R 有 是 最 右边 的 1 的 位 置 ， 因 而 工 的 位 级 表示 形 如 [zi zz 1l，0，…，0]。 
(只 要 z 天 0 就 能 够 找到 这 样 的 &。) 这 个 值 的 非 写 成 二 进 制 格式 就 是 [一 zoli， 一 Zuo-y，…， 
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人 kk+19 上 ， OO *», 0 。 也 就 是 ， 我 们 对 位 左边 的 所 有 位 取 反 。 





“i | ih | 
[1100] -4 | fozo0] 4 
[1000] -8 | [1000] -8 
[0107] 5 | Ton 2s 
[0117] 7 S00 bE 
2. 3.4 无 符号 乘法 


范围 在 0 委 z，?y 和 条 一 1 内 的 整数 二 和 y 可 以 被 表示 为 w 位 的 无 符号 数 ， 但 是 它们 的 
乘积 zx，y 的 取 值 范围 为 0 到 (2* 一 1)”= 二 2 一 2*m 十 1 之 间 。 这 可 能 需要 2w 位 来 表示 。 不 
过 ，C 语言 中 的 无 符号 乘法 被 定义 为 产生 w 位 的 值 ， 就 是 2w 位 的 整数 乘积 的 低 w 位 表示 
的 值 。 我 们 将 这 个 值 表示 为 工 xwy。 

将 一 个 无 符号 数 截断 为 w 位 等 价 于 计算 该 值 模 2*， 得到: 

原理 : 无 符号 数 乘 法 

对 满足 0 三 XT，y 生 UMax, 的 XT 和 有: 

TuYy = (rx* ymod 2 (2. 16) 


2.3.5 补 码 乘法 


范围 在 一 2 "三 +，y 硅 2” 一 1 内 的 整数 x 和 yy 可 以 被 表示 为 芭 位 的 补 码 数字 ， 但 是 
它们 的 乘积 和 sy 的 取 值 范围 为 一 22™% (27 一 1) 三 一 2 十 2 到 一 2 一 2 二 
一 2 “之 间 。 要 想 用 补 码 来 表示 这 个 乘积 ， 可 能 需要 2w 位 。 然 而 ，C 语言 中 的 有 符号 乘 
法 是 通过 将 2w 位 的 乘积 截断 为 w 位 来 实现 的 。 我 们 将 这 个 数值 表示 为 zx x i,y。 将 一 个 补 
码 数 截断 为 w 位 相当 于 先 计算 该 值 模 2*， 再 把 无 符号 数 转换 为 补 码 ， 得 到 .: 

原理 : 补 码 乘法 

对 满足 TMin, 夺 XT，y 夺 TMazw 的 工 和 yy 有 : 

Xxxuy = U2T,((xz® y)mod 2™) (2; 17) 

我 们 认为 对 于 无 符号 和 补 码 乘法 来 说 ， 乘 法 运算 的 位 级 表示 都 是 一 样 的 ， 并 用 如 下 原 
理 说 明 : 

原理 : 无 符号 和 和 补 码 乘 法 的 位 级 等 价 性 

给 定 长 度 为 w 的 位 向 量 工 和 y， 用 补 码 形 式 的 位 向 量 表示 来 定义 整数 工 和 y: z 一 
B2T.(z)，y 一 B2T.(y)。 用 无 符号 形式 的 位 向 量 表示 来 定义 非 负 整数 和 y: zz 一 
B2U, (Xx), y =B2U,(y)。 则 

T2B (2% ty) = USB, (Cy wy) 

作为 说 明 ， 图 2-27 给 出 了 不 同 3 位 数字 的 乘法 结果 。 对 于 每 一 对 位 级 运算 数 ， 我 们 
执行 无 符号 和 补 码 乘法 ， 得 到 6 位 的 乘积 ， 然 后 再 把 这 些 乘 积 截断 到 3 位 。 无 符号 的 截断 
后 的 乘积 总 是 等 于 x，y mod8。 虽 然 无 符号 和 补 码 两 种 乘法 乘积 的 6 位 表示 不 同 ， 但 是 截 
断后 的 乘积 的 位 级 表示 都 相同 。 

推导 : 无 符号 和 补 码 乘法 的 位 级 等 价 性 

根据 等 式 (2. 6) ， 我 们 有 z = 二 x 十 zs_12” 和 yy' 一 > 十 yu-i2"。 计 算 这 些 值 的 乘积 模 2* 
得 到 以 下 结果 : 

(x sy )mod 2* = [(z Zz, 12*) + (y+ yr 12*) |mod 2 
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= [ze yy 二 (zed Vir) To i yw 2 |mod 2 

一 (Ze y) mod 2™ 
由 于 模 运算 符 ， 所 有 带 有 权重 2” 和 2 的 项 都 丢掉 了 。 根 据 等 式 (2.17)， 我 们 有 zx wy 二 
U2T,((x。y) mod 2*)。 对 等 式 两 边 应 用 操作 T2U,, 有 : 

T2U,(xx*,y) = T2U, CU2T CCZ。y) mod 2”)) = (Ze y) mod 2 
将 上 述 结果 与 式 (2.16) 和 式 (2.18) 结 合 起 来 得 到 T2U, (x x*hy)= 二 (x '，y) mod 2”"= 
Xx" *&y 。 然 后 对 这 个 等 式 的 两 边 应 用 U2B,.， 得 到 
U2B, (T2U (zty)) = TOB, (x ty) = U2B, (rx WEYy ) 网 


(2,18.) 





7 
[100] 
四 | 
[001001] 
[ewe | 
图 2-27 3 位 无 符号 和 补 码 乘法 示例 。 虽 然 完整 的 乘积 的 位 级 表示 可 能 会 不 同 ， 


[001] 
[001] 
但 是 截断 后 乘积 的 位 级 表示 是 相同 的 


富强 练习 题 2.34 按照 图 2-27 的 风格 填写 下 表 ， 说 明 不 同 的 3 位 数字 乘法 的 结果 。 








表 练习 题 2.35 给 你 一 个 任务 ， 开 发 函数 tmult_ ok 的 代码 ， 该 函数 会 判断 两 个 参数 相 
乘 是 否 会 产生 浇 出 。 下 面 是 你 的 解决 方案 : 
/* Determine whether arguments can be multiplied without overflow */ 
int tmult_ok(int x, int y) { 
int p = x*y; | 
/* Either x is Zero, or dividing p by x gives y */ 
return Ix || p/x == y; 


你 用 工 和 和 的 很 多 值 来 测试 这 段 代 码 ， 似 乎 都 工作 正常 。 你 的 同事 挑战 你 ， 说 : 
“如 果 我 不 能 用 减法 来 检验 加 法 是 否 溢出 (参见 练习 题 2.31)， 那 么 你 怎么 能 用 除法 来 
检验 乘法 是 否 溢 出 呢 ?” 

按照 下 面 的 思路 ， 用 数学 推导 来 证 明 你 的 方法 是 对 的 。 首 先 ， 证 明 z==0 的 情况 
是 正确 的 。 另 外 ， 考 虑 志 位 数字 zx(Xx 了 关 0)、y、pP 和 gg， 这 里 pp 是 x 和 补 码 乘法 的 
结果 ,而 g 是 p 除 以 x 的 结果 。 

1) 说 明 工 和 y 的 整数 乘积 Xx。y， 可 以 写成 这 样 的 形式 : Tx，y 二 p 十 t2”"， 其 中 ， 
ti 天 0 当 且 仅 当 p 的 计算 溢出 。 
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2) 说 明 pp 可 以 写成 这 样 的 形式 : p 二 xz*g 十 +， 其 中 |r| 二 |z|。 
3) 说 明 g 二 yy 当 且 仅 当 r= 二 t=0。 
有 练习 题 2.36 对 于 数据 类 型 int 为 32 位 的 情况 ,设计 一 个 版 本 的 tmult _ok 函数 ( 练 
习题 2.35)， 使 用 64 位 精度 的 数据 类 型 int64 七 ， 而 不 使 用 除法 。 


2002 年 ， 人 们 发 现 Sun Microsystems 公司 提供 的 实现 XDR 库 的 代码 有 安全 漏洞 ， 
XDR 库 是 一 个 广泛 使 用 的 、 程 序 间 共享 数据 结构 的 工具 ， 造 成 这 个 安全 漏洞 的 原因 是 
程序 会 在 毫 无 察觉 的 情况 下 产生 乘法 溢出 。 

包含 安全 漏洞 的 代码 与 下 面 所 示 类 似 : 


i /* Illustration of code vulnerability similar to that found in 





2 * Sun's XDR library. 

3 */ 

4 void* copy_elements(void *ele_src[], int ele_cnt, size_t ele.size) 二 
5 /来 

6 * Allocate buffer for ele_cnt objects, each of ele_size bytes 
7 * and copy from locations designated by ele_src 
8 */ 

9 void *result = malloc(ele_cnt * ele_size); 

10 if (result == NULL) 

11 /* malloc failed */ 

12 return NULL ; 

13 Volid *next = result; 

14 int 江 ; 

15 for (i = 0; i < ele_cnt; I++) { 

16 /* Copy object i to destination */ 

17 memcpy (next, ele_src[i], ele.size); 

18 /* Move pointer to next memory region */ 

19 next += ele. size; 

20 } 

21 return result; 

22 } 


函数 copy elements 设计 用 来 将 ele cnt 个 数据 结构 复制 到 第 9 行 的 函数 分 配 的 
缓冲 区 中 ， 每 个 数据 结构 包含 ele size 个 字 节 。 需 要 的 字 节 数 是 通过 计算 ele cnt * 
ele size 得 到 的 。 

想象 一 下 ， 一 个 怀 有 恶意 的 程序 员 在 被 编译 为 32 位 的 程序 中 用 参数 ele_cnt 等 于 
1 048 577(22 十 1) 、ele size 等 于 4096(22) 来 调用 这 个 函数 。 然 后 第 9 行 上 的 乘法 会 
溢出 ， 寻 致 只 会 分 配 4096 个 字 节 ， 而 不 是 装 下 这 些 数据 所 需要 的 4294971392 个 字 节 。 
从 第 15 行 开 始 的 循环 会 试图 复制 所 有 的 字 节 ， 超 越 已 分 配 的 缓冲 区 的 界限 ， 因 而 破坏 
了 其 他 的 数据 结构 。 这 会 导致 程序 前 溃 或 者 行为 异常 。 

几乎 每 个 操作 系统 都 使 用 了 这 段 Sun 的 代码 ， 像 Internet Explorer 和 Kerberos 验证 系 
统 这 样 使 用 广泛 的 程序 都 用 到 了 它 。 计 算 机 紧急 响应 组 (Computer Emergency Response 
Team ，CERT)， 由 卡 内 基 - 梅 隆 软件 工程 协会 (Carnegie Mellon Software Engineering Insti- 
tute) 运 作 的 一 个 追踪 安全 汤 洞 或 失效 的 组 织 ， 发 布 了 建议 “CA-2002-25”， 于 是 许多 公司 
急忙 对 它们 的 代码 打 补 丁 。 幸 运 的 是 ， 还 没有 由 于 这 个 漏洞 引起 的 安全 失效 的 报告 。 

库 函 数 calloc 的 实现 中 存在 着 类 似 的 漏洞 。 这 些 已 经 被 修补 过 了 。 遗 憾 的 是 ， 许 
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多 程序 员 调 用 分 配 函 数 ( 如 malloc) 时 ， 使 用 算术 表达 式 作 为 参数 ， 并 且 不 对 这 些 表达 
式 进行 溢出 检查 。 编 写 calloc 的 可 靠 版 本 留 作 一 道 练 习题 (家 庭 作 业 2.76) 。 


访 红 练习 题 2. 37 ”现在 你 有 一 个 任务 ， 当 数据 类 型 int 和 size 七 都 是 32 位 的 ， 修补 上 
述 旁 注 给 出 的 XDR 代码 中 的 漏洞 。 你 决定 将 待 分 配 字 节 数 设 置 为 数据 类 型 uint64 tt， 
来 消除 乘法 溢出 的 可 能 性 。 你 把 原来 对 malloc 函数 的 调用 (第 9 行 ) 替 换 如 下 : 
Uint64 t asize = 


ele_cnt * (uint64_t) ele_size; 
void *result = malloc(asize): 


提醒 一 下 ，malloc 的 参数 类 型 是 size 七 。 
A. 这 段 代 码 对 原始 的 代码 有 了 哪些 改进 ? 
B. 你 该 如 何 修改 代码 来 消除 这 个 漏洞 ? 


2.3.6 乘 以 常数 


以 往 ， 在 大 多 数 机 器 上 ， 整 数 乘法 指令 相当 慢 ， 需 要 10 个 或 者 更 多 的 时 钟 周 期 ， 然 
而 其 他 整数 运算 (例如 加 法 、 减 法 、 位 级 运算 和 移 位 ) 只 需要 1 个 时 钟 周期 。 即 使 在 我 们 的 
参考 机 器 Intel Core 17 Haswell 上 ， 其 整数 乘法 也 需要 3 个 时 钟 周期 。 因 此 ， 编 译 右 使 用 
了 一 项 重要 的 优化 ， 试 着 用 移 位 和 加 法 运算 的 组 合 来 代替 乘 以 常数 因子 的 乘法 。 首 先 ， 我 
们 会 考虑 乘 以 2 的 短 的 情况 ， 然 后 再 概括 成 乘 以 任意 常数 。 





原理 : 乘 以 2 的 千 

设 工 为 位 模式 [zu-l1，xzo-z，…，xzoj 表 示 的 无 符号 整数 。 那 么 ， 对 于 任何 & 之 0， 我 们 
都 认为 [Xi1，Xw_z， 一 ，ZXo，0，""…，0 |] 给 出 了 x2* 的 ww 十 k 位 的 无 符号 表示 ， 这 里 右边 
增加 了 上 个 0。 


因此 ， 比 如 ， 当 w= 二 4 时 ，11 可 以 被 表示 为 L1011]。k&= 二 2 时 将 其 左 移 得 到 6 位 向 量 
[101100]， 即 可 编码 为 无 符号 数 11， 4 二 44，。 

推导 : 乘 以 2 的 寡 

这 个 属性 可 以 通过 等 式 (2. 1) 推 导出 来 : 


一 ] 


Bo sto sm ys IN= DE 
i=0 


ur—l 


= | | " 吕 


= 加 
当 对 固定 字 长 左 移 位 时 ， 其 高 位 被 丢弃 ， 得 到 
| di ld | 

而 执行 固定 字 长 的 乘法 也 是 这 种 情况 。 因 此 ， 我 们 可 以 看 出 左 移 一 个 数值 等 价 于 执行 一 个 
与 2 的 突 相 乘 的 无 符号 乘法 。 

原理 : 与 2 的 笑 相 乘 的 无 符号 乘法 

C 变量 xx 和 k 有 无 符号 数值 和 &， 且 0 二 k 二 w， 则 C 表达 式 x<<k 产生 数值 工 * 2*。 

由 于 固定 大 小 的 补 码 算术 运算 的 位 级 操作 与 其 无 符号 运算 等 价 ， 我 们 就 可 以 对 补 码 运 
算 的 2 的 蛤 的 乘法 与 左 移 之 间 的 关系 进行 类 似 的 表述 : 

原理 : 与 2 的 其 相 乘 的 补 码 乘法 

C 变量 x 和 Kk 有 补 码 值 工 和 无 符号 数值 R， 且 0 二 k 二 w， 则 CC 表 达 式 x<<k 产生 数值 工 x5 2 。 
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注意 ， 无 论 是 无 符号 运算 还 是 补 码 运算 ， 乘 以 2 的 震 都 可 能 会 导致 溢出 。 结 果 表 明 ， 
即使 滋 出 的 时 候 ， 我 们 通过 移 位 得 到 的 结果 也 是 一 样 的 。 回 到 前 面 的 例子 ， 我 们 将 4 位 模 
式 L1011j (数值 为 11) 左 移 两 位 得 到 L101100] (数值 为 44)。 将 这 个 值 截断 为 4 位 得 到 
[1100]( 数 值 为 12 二 44 mod 16) 。 

由 于 整数 乘法 比 移 位 和 加 法 的 代价 要 大 得 多 ， 许 多 C 语言 编译 器 试图 以 移 位 、 加 法 和 
减法 的 组 合 来 消除 很 多 整数 乘 以 常数 的 情况 。 例 如 ， 假设 一 个 程序 包含 表达 式 x * 14。 利 
用 14= 二 2 十 2 十 2 ， 编 译 器 会 将 乘法 重 写 为 (x<<3) + (x<<2)+ (x<<1) ， 将 一 个 乘法 替换 为 三 
个 移 位 和 两 个 加 法 。 无 论 x 是 无 符号 的 还 是 补 码 ， 甚 至 当 乘 法 会 导致 溢出 时 ， 两 个 计算 都 
会 得 到 一 样 的 结果 。( 根 据 整数 运算 的 属性 可 以 证 明 这 一 点 。) 更 好 的 是 ， 编 译 器 还 可 以 利 
用 属性 14=2 一 2 ， 将 乘法 重 写 为 (x<<4)- (x<<1) ， 这 时 只 需要 两 个 移 位 和 一 个 减法 。 
世纪 练习 题 2. 38 就 像 我 们 将 在 第 3 章 中 看 到 的 那样 ，LEA 指令 能 够 执行 形 如 (a<<k) +b 

的 计算 ， 这 里 kk 等 于 0、1、2 或 3， 而 bb 等 于 0 或 者 某 个 程序 值 。 编 译 器 常常 用 这 条 

指令 来 执行 常数 因子 乘法 。 例 如 ， 我 们 可 以 用 (a<<1)+a 来 计算 3*a。 

考虑 bb 等 于 0 或 者 等 于 a、k 为 任意 可 能 的 值 的 情况 ， 用 一 条 LEA 指令 可 以 计算 

a 的 哪些 倍数 ? 

归纳 一 下 我 们 的 例子 ， 考 虑 一 个 任务 ， 对 于 某 个 常数 天 的 表达 式 x* K 生成 代码 。 编 
ne 

[(0…0)(1…1)(0…0)…(1…1) | 
例如 ，14 可 以 写成 [(0…0)(111) (0)]。 考 虑 一 和 
m)。( 对 于 14 来 说 ,我 们 有 n= 二 3 和 m= 二 1,) 我 们 可 以 用 下 面 两 种 不 同形 式 中 的 一 种 来 计算 
这 些 位 对 乘积 的 影响 : 

形式 A: (x<<n) 十 (x<<(n 一 1)) 十 …: 十 (x<<m) 

形式 B: (x<<(n 二 1))— (x<<m) 

把 每 个 这 样 连续 的 1 的 结果 加 起 来 ， 不 用 做 任何 乘法 ， 我 们 就 能 计算 出 xx 天。 当然 ， 选 

择 使 用 移 位 、 加 法 和 减法 的 组 合 ， 还 是 使 用 一 条 乘法 指令 ， 取 决 于 这 些 指令 的 相对 速度 ， 

而 这 些 是 与 机 器 高 度 相 关 的 。 大 多 数 编译 器 只 在 需要 少量 移 位 、 加 法 和 减法 就 足够 的 时 候 

才 使 用 这 种 优化 。 

实弹 练习 题 2. 39 ”对 于 位 位 置 n 为 最 高 有 效 位 的 情况 ， 我 们 要 怎样 修改 形式 B 的 表达 式 ? 

ES 练习 题 2. 40 ”对 于 下 面 每 个 的 值 ， 找 出 只 用 指定 数量 的 运算 表达 xx* K 的 方法 ， 
这 里 我 们 认为 加 法 和 和 减法 的 开销 相当 。 除 了 我 们 已 经 考虑 过 的 简单 的 形式 AA 和 B 原 
则 ， 你 可 能 会 需要 使 用 一 些 技巧 。 





密 强 练习 题 2.41 对 于 一 组 从 位 位 置 开始 到 位 位 置 m 的 连续 的 1(n 宇 m)， 我 们 看 到 可 
以 产生 两 种 形式 的 代码 ，A 和 B。 编 译 器 该 如 何 决 定 使 用 哪 一 种 呢 ? 


2.3.7 除 以 2 的 鹤 
在 大 多 数 机 人 句 上 ， 整 数 除 法 要 比 整数 乘法 更 慢 一 一 需要 30 个 或 者 更 多 的 时 钟 周期 。 
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除 以 2 的 窘 也 可 以 用 移 位 运算 来 实现 ， 只 不 过 我 们 用 的 是 右 移 ， 而 不 是 左 移 。 无 符号 和 补 
码 数 分 别 使 用 逻辑 移 位 和 算术 移 位 来 达到 目的 。 

整数 除法 总 是 舍 人 到 零 。 为 了 准确 进行 定义 ， 我 们 要 引入 一 些 符号 。 对 于 任何 实数 a， 
定义 La 为 唯一 的 整数 a ， 使 得 a 三 aa 十 1。 例 如 , | 3.14]=3, | 一 3. 14」= 一 4 而 | 3 j= 
3。 同 样 ， 定 义 [ a ] 为 唯一 的 整数 a ， 使 得 a 一 1 过 a 二 a 。 例 如 ,「 3.141=4, [一 3.141= 一 3， 
而 | 3 | 二 3。 对 于 z 达 0 和 y>0， 结 果 会 是 | z/yj」， 而 对 于 x 二 0 和 y 之 0， 结果 会 是 [ z/y |。 
也 就 是 说 ， 它 将 同 下 伟人 一 个 正 值 ， 而 向 上 伟人 一 个 负 值 。 

对 无 符号 运算 使 用 移 位 是 非常 简单 的 ， 部 分 原因 是 由 于 无 符号 数 的 右 移 一 定 是 逻辑 
右 移 。 

原理 : 除 以 2 的 笑 的 无 符号 除法 

C 变 量 x 和 KKk 有 无 符号 数值 坟 和 &， 且 0 二 有 k 二 w， 则 C 表达 式 x>>k 产生 数值 | x/2* |。 

例如 ， 图 2-28 给 出 了 在 12 340 的 16 位 表示 上 执行 逻辑 右 移 的 结果 ， 以 及 对 它 执行 除 
以 1、2、16 和 256 的 结果 。 从 左 端 移入 的 0 以 斜体 表示 。 我 们 还 给 出 了 用 真正 的 运算 做 
除法 得 到 的 结果 。 这 些 示 例 说 明 ， 移 位 总 是 舍 人 到 和 零 的 结果 ， 这 一 点 与 整数 除法 的 规则 
-和 


| 


0011000000110100 12340.0 


0001100000011010 6170.0 


0000001100000011 和 
0000000000110000 48.203125 





图 2-28 无 符号 数 除 以 2 的 罕 ( 这 个 例子 说 明了 执行 一 个 逻辑 右 移 上 位 与 
除 以 2* 再 舍 人 入 到 零 有 一 样 的 效果 ) 

推导 : 除 以 2 的 帘 的 无 符号 除法 

设 工 为 位 模式 [x。_1，Xxs_:，…，zoj 表 示 的 无 符号 整数 ,而 名 的 取 值 范围 为 0 二 k 二 
w。 设 工 为 w 一 有 位 位 表示 [zs_1，xs_:，"…，z4j 的 无 符号 数 ， 而 为 上 位 位 表示 [xi-i， 
“… ，zzo 的 无 符号 数 。 由 此 ， 我 们 可 以 看 到 z 一 24z 十 工 ， 而 0 委 工 二 2。 因此 ， 可 得 [zy/ 
2 | 一 工 。 

对 位 向 量 Lz.-i，xzo-*，…，xzo] 逻 辑 右 移 & 位 会 得 到 位 向 量 

[0 0 PE, A ym | 
这 个 位 向 量 有 数值 x ， 我们 看 到 ， 该 值 可 以 通过 计算 x>>k 得 到 。 加 

对 于 除 以 2 的 寡 的 补 码 运算 来 说 ， 情 况 要 稍微 复杂 一 些 。 首 先 ， 为 了 保证 负数 仍然 为 
负 ， 移 位 要 执行 的 是 算术 右 移 。 现 在 让 我 们 来 看 看 这 种 右 移 会 产生 什么 结果 。 

原理 : 除 以 2 的 项 的 补 码 除法 ， 向 下 舍 入 

C 变量 x 和 kk 分别 有 补 码 值 和 无 符号 数值 上 ， 且 0 三 k 二 w， 则 当 执 行 算术 移 位 时 ， 
C 表达 式 x>>k 产生 数值 | z/2 」。 

对 于 zx 宇 0， 变 量 x 的 最 高 有 效 位 为 0， 所 以 效果 与 逻辑 右 移 是 一 样 的 。 因 此 ， 对 于 非 负 
数 来 说 ， 算 术 右 移 & 位 与 除 以 2 是 一 样 的 。 作 为 一 个 负数 的 例子 ， 图 2-29 给 出 了 对 一 12 340 
的 16 位 表示 进行 算术 右 移 不 同位 数 的 结果 。 对 于 不 需要 舍 入 的 情况 (4 二 1)， 结 果 是 xz/2*。 
但 是 当 需 要 进行 舍 人 时 ， 移 位 导致 结果 向 下 舍 信 。 例 如 ， 右 移 4 位 将 会 把 一 771. 25 向 下 伟人 
为 一 772。 我 们 需要 调整 策略 来 处 理 负 数 z 的 除法 。 
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EE 


1100111111001100 一 12340.0 
1110011111100110 一 0170.0 


71777110011111100 一 大 /2 
1777777711001111 一 48.203125 





图 2-29 ”进行 算术 右 移 (这 个 例子 说 明了 算术 右 移 类 似 于 除 以 2 的 宪 ， 
除了 是 向 下 伟人 ， 而 不 是 向 零售 人 ) 

推导 : 除 以 2 的 寡 的 补 码 除法 ， 辐 下 伟人 

设 xz 为 位 模式 [xs_1，Zz-:，…，zoj 表 示 的 补 码 整 数 ， 而 上 的 取 值 范围 为 0k 二 ww。 
设 z 为 本 尼 位 | Rw wu 一 2 9 """y Xi 表示 的 补 码 数 ， 而 xz 为 低位 Lx-_i， a Zzoj 表 不 
的 无 符号 数 。 通 过 与 对 无 符号 情况 类 似 的 分 析 ， 我们 有 z 王 2z 十 zx， 而 0 二 x 二 2*， 得 到 

=| x/2°]。 进一步 ， 可 以 观察 到 ， 算术 右 移 位 向 量 Lza 1 vt 一 2 “9 zo |k 位 ， 得 到 位 
问 量 
[ 1 3 9 1 9 ss Th | 

它 刚 好 就 是 将 [x 1 ，Zw-z，…，Zzhj] 从 w 一 & 位 符号 扩展 到 ww 位。 因此 ， 这 个 移 位 后 的 位 
问 量 就 是 L x/2 | 的 补 码 表示 。 区 

我 们 可 以 通过 在 移 位 之 前 “ 偏 置 (biasing)” 这 个 值 ， 来 修正 这 种 不 合适 的 舍 人 ， 

原理 : 除 以 2 的 车 的 补 码 除法 ， 向 上 舍 入 

C 变量 x 和 分 别 有 补 码 值 工 和 无 符号 数值 上 &， 有 上 且 0 委 & 一 让 ， 则 当 执 行 算 术 移 位 时 ， 
C 表达 式 (x+(1<<k) 一 1)>>k 产生 数值 | z/2* 」。 

图 2-30 说 明 在 执行 算术 右 移 之 前 加 上 一 个 适当 的 俩 置 量 是 如 何 导 致 结果 正确 舍 人 的 。 
在 第 3 列 ， 我 们 给 出 了 一 12 340 加 上 偏 量 值 之 后 的 结果 ， 低 和 & 位 (那些 会 回 右 移出 的 位 ) 以 
和 斜体 表示 。 我 们 可 以 看 到 ， 低 & 位 左边 的 位 可 能 会 加 1， 也 可 能 不 会 加 1。 对 于 不 需要 舍 
和 人 的 情况 人 二 1)， 加 上 侦 量 只 影响 那些 被 移 掉 的 位 。 对 于 需要 伟人 的 情况 ， 加 上 侦 量 导致 
较 高 的 位 加 1， 所 以 结果 会 回 零 伟人 。 


| 十 进 制 


1100111111001100 1100111111001100 一 12340.0 
1100111111001107 7110011111100110 —6170.0 


1100111111017071 T111110011111101 711,25 
1101000077007077 71717777711010000 一 48.2031235 





图 2-30 补 码 除 以 2 的 才 ( 右 移 之 前 加 上 一 个 偏 量 ， 结 果 就 向 零 仿 人 了 ) 


偏 置 技术 利用 如 下 属性 : 对 于 整数 和 y(y>0)，[ z/y |=L(z 十 y 一 1)/y」。 例 如 ， 当 
x 二 一 30 和 y 一 4， 我 们 有 z 十 一 1= 一 27， 而 [一 30/4 | 二 一 7 三 [一 27/4 上 当 zx 一 一 32 和 
y= 时 ,我 们 看 2 十 ?一 1 三 一 录 ， 而 一 台 / 导 一 8 一 级 / 汪 上 

推导 : 除 以 2 的 过 的 补 码 除法 ， 向 上 伟人 

查看 | z/y | 二 [L(x 十 y 一 1)/y j， 假 设 z 一 gy 十 r， 其 中 0 委 r<》， 得 到 (z 十 y 一 1)7y 王 
gq 二 (7r 十 y 一 1)/y， 因 此 [L(x 十 y 一 1)/yJ 二 gq 十 [(r 十 y 一 1)/yJ」。 当 r==0 时， 后面 一 项 等 于 0， 
而 当 rr 之 0 时 ， 等 于 1。 也 就 是 说 ， 通 过 给 x 增加 一 个 偏 量 > 一 1， 然 后 再 将 除法 向 下 舍 人 ， 
当 y 整除 x 时 ， 我 们 得 到 gg， 和 否则， 就 得 到 g 十 1。 
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回 到 y= 二 2* 的 情况 ，C 表达 式 x+ (1<<k) -1 得 到 数值 x 十 2 一 1。 将 这 个 值 算术 右 移 & 
位 即 产生 | x/2* 」。 一 
这 个 分 析 表 明 对 于 使 用 算术 右 移 的 补 码 机 器 ，C 表达 式 


(x<O0 ?了 x+(1<<k)-1 : x) >>k 


将 会 计算 数值 z/2*。 
启 弹 练习 题 2.42 写 一 个 函数 div16， 对 于 整数 参数 x 返回 x/16 的 值 。 你 的 函数 不 能 
使 用 除法 、 模 运算 、 乘 法 、 任 何 条 件 语句 (if 或 者 ?:)、 任 何 比 较 运 算 符 (例如 <、 
> 或 ==) 或 任何 循环 。 你 可 以 假设 数据 类 型 int 是 32 位 长 ， 使 用 补 码 表示 ， 而 右 移 
是 算术 右 移 。 
现在 我 们 看 到 ， 除 以 2 的 医 可 以 通过 逻辑 或 者 算术 右 移 来 实现 。 这 也 正 是 为 什么 大 多 
数 机 器 上 提供 这 两 种 类 型 的 右 移 。 不 幸 的 是 ， 这 种 方法 不 能 推广 到 除 以 任意 常数 。 同 乘法 
不 同 ， 我 们 不 能 用 除 以 2 的 震 的 除法 来 表示 除 以 任意 常数 KK 的 除法 。 
评弹 练习 题 2.43 ”在 下 面 的 代码 中 ， 我 们 省 略 了 常数 M 和 NN 的 定义 : 
#define M /* Mystery number 1 */ 
#define N /* Mystery number 2 */ 
int arith(int x, int y) 荆 
int result = 0; 


result = x*M + y/N; /* M and N are mystery numbers. */ 
return result; 


我 们 以 某 个 M 和 Ny 的 值 编 译 这 段 代码 。 编 译 器 用 我 们 讨论 过 的 方法 优化 乘法 和 除 
法 。 下 面 是 将 产生 出 的 机 器 代码 翻译 回 C 语言 的 结果 : 
/* Translation of assembly code for arith */ 
int optarith(int x, int y) { 

Tn 外 尖 ? 

X <<= 5; 

XX 一 三 证; 

if (y < 0)y += 7; 

y >>= 3; /* Arithmetic shift */ 

return x+y; 


M 和 NN 的 值 为 多 少 ? 


2. 3.8 关于 整数 运算 的 最 后 思考 


正如 我 们 看 到 的 ， 计 算 机 执行 的 “整数 ”运算 实际 上 是 一 种 模 运 算 形 式 。 表 示 数 字 的 
有 限 字 长 限制 了 可 能 的 值 的 取 值 范围 ， 结 果 运 算 可 能 溢出。 我 们 还 看 到 ， 补 码 表示 提供 了 
一 种 既 能 表示 负数 也 能 表示 正 数 的 灵活 方法 ,同时 使 用 了 与 执行 无 符号 算术 相同 的 位 级 实 
现 ， 这 些 运 算 包 括 像 加 法 、 减 法 、 乘 法 ， 其 至 除法 ,无论 运算 数 是 以 无 符号 形式 还 是 以 补 
码 形式 表示 的 ， 都 有 完全 一 样 或 者 非常 类 似 的 位 级 行为 。 

我 们 看 到 了 C 语言 中 的 某 些 规定 可 能 会 产生 令 人 意 想不到 的 结果 ， 而 这 些 结果 可 能 是 
难以 察觉 或 理解 的 缺陷 的 源头 。 我 们 特别 看 到 了 unsigned 数据 类 型 ， 虽然 它 概念 上 很 简 
单 ， 但 可 能 导致 即使 是 资深 程序 员 都 意 想不到 的 行为 。 我 们 还 看 到 这 种 数据 类 型 会 以 出 平 
意料 的 方式 出 现 ， 比 如 ， 当 书写 整数 常数 和 当 调 用 库 函 数 时 。 
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世纪 练习 题 2. 44 假设 我 们 在 对 有 符号 值 使 用 补 码 运算 的 32 位 机 器 上 运行 代码 。 对 于 有 符号 
值 使 用 的 是 算术 右 移 ， 而 对 于 无 符号 值 使 用 的 是 逻辑 右 移 。 变 量 的 声明 和 初始 化 如 下 : 
int x = foo(); /* Arbitrary value */ 
int y = bar(); /* Arbitrary value */ 


unsigned ux = XxX; 
unsigned uy = y; 
对 于 下 面 每 个 C 表 达 式 ,1) 证 明 对 于 所 有 的 x 和 y 值 ， 它 都 为 真 ( 等 于 1); 或 者 
2) 给 出 使 得 它 为 假 ( 等 于 0) 的 x 和 yy 的 值 : 
= (x OF TN r= < 0 
. (x&7) !=7 || (x<<29 < 0) 
. (XxX* XxX) >= 0 
; RO | = 0 
x>01|-x>=0 


X+y == UY+UX 


宙 本 本 可 站 机 


. X*~y + Uy*UX == —X 


2.4 浮 点 数 


浮 点 表示 对 形 如 V 王 zX2* 的 有 理 数 进行 编码 。 它 对 执行 涉及 非常 大 的 数字 (|V | 之 > 
0) 、 非 常 接近 于 0(|V|< 生 1) 的 数字 ， 以 及 更 普遍 地 作为 实数 运算 的 近似 值 的 计算 ， 是 很 
有 用 的 。 

直到 20 世纪 80 年 代 ， 每 个 计算 机 制造 商都 设计 了 自己 的 表示 浮 点 数 的 规则 ， 以 及 对 
浮 点 数 执行 运算 的 细节 。 另 外 ， 它 们 常常 不 会 太 多 地 关注 运算 的 精确 性 ， 而 把 实现 的 速度 
和 简便 性 看 得 比 数字 精确 性 更 重要 。 

大 约 在 1985 年 ， 这 些 情况 随 着 IEEE 标准 754 的 推出 而 改变 了 ， 这 是 一 个 仔细 制订 的 
表示 浮 点 数 及 其 运算 的 标准 。 这 项 工作 是 从 1976 年 开始 由 Intel 赞助 的 ， 与 8087 的 设计 
同时 进行 ，8087 是 一 种 为 8086 处 理 器 提供 浮 点 支持 的 世 片 。 他 们 请 William Kahan( 加 州 
大 学 伯克利 分 校 的 一 位 教授 ) 作 为 顾问 ， 帮 助 设 计 未 来 处 理 器 浮 点 标准 。 他 们 支持 Kahan 
加 入 一 个 IEEE 资助 的 制订 工业 标准 的 委员 会 。 这 个 委员 会 最 终 采 纳 的 标准 非常 接近 于 
Kahan 为 Intel 设计 的 标准 。 目 前 ， 实 际 上 所 有 的 计算 机 都 支持 这 个 后 来 被 称 为 IEEE 浮 
点 的 标准 。 这 大 大 提高 了 科学 应 用 程序 在 不 同 机 器 上 的 可 移植 性 。 


ETEEET 二 所 和 二子 工 程 后 旋 ] 

电气 和 电子 工程 师 协 会 (IEEE， 读 做 “eye-triple-ee”) 是 一 个 包括 所 有 电子 和 计算 机 
技术 的 专业 团体 。 它 出 版 刊物 ， 举 办 会 议 ， 并 且 建 立 委员 会 来 定义 标准 ， 内 容 涉 及 从 电 
力 传输 到 软件 工程 。 另 一 个 IEEE 标准 的 例子 是 无 线 网 络 的 802. 11 标准 。 


在 本 节 中 ,我 们 将 看 到 IEEE 浮 点 格式 中 数字 是 如 何 表示 的 。 我 们 还 将 探讨 舍 入 
(rounding) 的 问题 ， 即 当 一 个 数字 不 能 被 准确 地 表示 为 这 种 格式 时 ， 就 必须 向 上 调整 或 者 
向 下 调整 。 然 后 ， 我 们 将 探讨 加 法 、 乘 法 和 关系 运算 符 的 数学 属性 。 许 多 程序 员 认 为 浮 点 
数 没意思 ， 往 坏 了 说 ， 深 奥 难 懂 。 我 们 将 看 到 ， 因 为 IEEE 格式 是 定义 在 一 组 小 而 一 致 的 
原则 上 的 ， 所 以 它 实际 上 是 相当 优雅 和 容易 理解 的 。 
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2.4.1 二进制 小 数 


理解 浮 点 数 的 第 一 步 是 考虑 含有 小 数值 的 二 进 制 数 字 。 首 先 ， 让 我 们 来 看 看 更 熟悉 的 
十 进 制 表 示 法 。 十 进 制 表示 法 使 用 如 下 形式 的 表示 : 
d dddo td sd.. 
其 中 每 个 十 进 制 数 d; 的 取 值 范围 是 0 一 9。 这 个 表达 描述 的 数值 d 定义 如 下 : 


d= P10 xd, 


数字 权 的 定义 与 十 进 制 小 数 点 符号 ( .”) 相 关 ， 这 意味 着 小 数 点 左边 的 数字 的 权 是 10 
的 正 笑 ， 得 到 整数 值 ， 而 小 数 点 右边 的 数字 的 权 是 10 的 负 短 ,得 到 小 数值 。 例 如 ， 


12. 34w 表示 数 字 1X10! 十 2X10° 十 3X10-! 十 4X10- :一 12 0 


类 似 ， 考 虑 一 个 形 如 
有 
的 表示 法 ， 其 中 每 个 二 进 制 数字 ， 或 者 








称 为 位 ，b; 的 取 值 范围 是 0 和 1， 如 4 
图 2-31 所 示 。 这 种 表示 方法 表示 的 数 b 2 
定义 如 下 : ] 一 1 
Be Bei “bs Bb Bb Bs Bs “uv bn bs 
$ = Ss Xb, (2. 19) Ne 
符号 “. ”现在 变 为 了 二 进 制 的 点 ， 点 1/4 
左边 的 位 的 权 是 2 的 正 寡 ， 点 右边 的 位 1/8 
的 权 是 2 的 负 短 。 例 如 ，101. 11, 表示 
数字 1X22: 十 0X2 十 1X220 十 1X2-: 十 1/2 
1X2-: 一 4 十 0 十 1 十 地 十 二 一 5 3 
-2 一 4 十 0 二 
2 4 4 图 2-31 小 数 的 二 进 制 表示 。 二 进 制 点 左边 的 数字 的 
从 等 式 (2.19) 中 可 以 很 容易 地 看 权 形 如 2， 而 右边 的 数字 的 权 形 如 172 


ee ee bs 


10. 111, 表 示 数 2 十 0 十 元 十 地 十 吝 一 2 言 。 类 似 ， 二 进 制 小 数 点 向 右 移动 一 位 相当 于 将 访 


数 乘 2。 例 如 1011. 1 表示 数 a 二 

注意 ， 形 如 0. 11…1; 的 数 表示 的 是 刚好 小 于 1 的 数 。 例 如 ，0. 111111， 表示 祝 ， 我 们 
将 用 简单 的 表达 法 1. 0 一 e 来 表示 这 样 的 数值 。 

假定 我 们 仅 考 虑 有 限 长 度 的 编码 ， 那 么 十 进 制 表示 法 不 能 准确 地 表达 像 所 和 过 这 样 的 
数 。 类 似 ， 小 数 的 二 进 制 表示 法 只 能 表示 那些 能 够 被 写成 zxX 2* 的 数 。 其 他 的 值 只 能 够 被 
近似 地 表示 。 例 如 ， 数 字 二 可 以 用 十 进 制 小 数 0. 20 精确 表示 。 不 过 ， 我 们 并 不 能 把 它 准 


确 地 表示 为 一 个 二 进 制 小 数 ， 我 们 只 能 近似 地 表示 它 ， 增 加 二 进 制 表示 的 长 度 可 以 提高 表 
示 的 精度 : 
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让 汪 练习 题 2. 46” 浮 点 运算 的 不 精确 性 能 够 产生 灾难 性 的 后 果 。1991 年 2 月 25 日 ， 在 第 
一 次 海湾 战争 期 间 ， 沙 特 阿 拉 伯 的 达 摩 地 区 设置 的 美国 爱国 者 导弹 ， 拦 截 伊 拉克 的 飞 
毛 腿 导 弹 失 败 。 飞 毛 腿 导弹 击 中 了 美国 的 一 个 兵营 ， 造 成 28 名 士兵 死亡 。 美 国 总 审 
计 局 (GAO) 对 失败 原因 做 了 详细 的 分 析 [76]， 并 且 确 定 底 层 的 原因 在 于 一 个 数字 计 
算 不 精确 。 在 这 个 练习 中 ， 你 将 重 现 总 审计 局 分 析 的 一 部 分 。 

爱国 者 导弹 系统 中 含有 一 个 内 置 的 时 钟 ， 其 实现 类 似 一 个 计数 器 ， 每 0.1 秒 就 加 
1。 为 了 以 秒 为 单位 来 确定 时 间 ， 程 序 将 用 一 个 24 位 的 近似 于 1/10 的 二 进 制 小 数值 
来 乘 以 这 个 计数 器 的 值 。 特 别 地 ，1/10 的 二 进 制 表达 式 是 一 个 无 穷 序列 0. 000110011 
L0011]…。， 其 中 ， 方 括号 里 的 部 分 是 无 限 重 复 的 。 程序 用 值 来 近似 地 表示 0.1, zx 
只 考虑 这 个 序列 的 二 进 制 小 数 点 右边 的 前 23 位 ; x 二 0.00011001100110011001100。 
(参考 练习 题 2. 51， 里 面 有 关于 如 何 能 够 更 精确 地 近似 表示 0. 1 的 讨论 。) 
A. 0.1 一 x 的 二 进 制 表 示 是 什么 ? 
B. 0. 1 一 x 的 近似 的 十 进 制 值 是 多 少 ? 
C. 当 系 统 初始 启动 时 ， 时 钟 从 0 开始， 并 且 一 直 保 持 计 数 。 在 这 个 例子 中 ， 系 统 已 
经 运行 了 大 约 100 个 小 时 。 程 序 计 算出 的 时 间 和 实际 的 时 间 之 差 为 多 少 ? 
D. 系统 根据 一 枚 来 袭 导 弹 的 速率 和 它 最 后 被 雷达 侦 测 到 的 时 间 ， 来 预测 它 将 在 哪里 
出 现 。 假 定 飞毛腿 的 速率 大 约 是 2000 米 每 秒 ， 对 它 的 预测 偏差 了 多 少 ? 
通过 一 次 读 取 时 钟 得 到 的 绝对 时 间 中 的 轻微 错误 ,通常 不 会 影响 跟踪 的 计算 。 相 反 ， 
它 应 该 依赖 于 两 次 连续 的 读 取 之 间 的 相对 时 间 。 问 题 是 爱国 者 导弹 的 软件 已 经 升级 ， 可 以 
使 用 更 精确 的 函数 来 读 取 时 间 ， 但 不 是 所 有 的 函数 调用 都 用 新 的 代码 替换 了 。 结 果 就 是 ， 
跟踪 软件 一 次 读 取 用 的 是 精确 的 时 间 ， 而 另 一 次 读 取 用 的 是 不 精确 的 时 间 [L103]。 
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2. 4. 2 IEEE 浮 点 表示 


前 一 节 中 谈 到 的 定点 表示 法 不 能 很 有 效 地 表示 非常 大 的 数字 。 例 如 ， 表 达 式 5X2 ”是 
用 101 后 面 跟随 100 个 零 的 位 模式 来 表示 。 相 反 ， 我 们 希望 通过 给 定 x 和 y 的 值 ， 来 表示 
形 如 工 X2> 的 数 。 

IEEE 浮 点 标准 用 V= (一 1)XMX2 的 形式 来 表示 一 个 数 : 

9 符号 (sign) s 决定 这 数 是 负数 (s 二 1) 还 是 正 数 (s 二 0)， 而 对 于 数值 0 的 符号 位 解释 

作为 特殊 情况 处 理 。 

@ 尾数 (significand) M 是 一 个 二 进 制 小 数 ， 它 的 范围 是 1 一 2 一 se， 或 者 是 0 一 1 一 s。 

e@ 阶 码 (exponent) 五 的 作用 是 对 浮 点 数 加 权 ， 这 个 权重 是 2 的 互 次 震 ( 可 能 是 负数 )。 

将 浮 点 数 的 位 表示 划分 为 三 个 字段 ， 分 别 对 这 些 值 进行 编码 : 

e 一 个 单独 的 符号 位 * 直接 编码 符号 。 

e 上 位 的 阶 码 字段 exp 三 ek=1 …ei@o 编码 阶 人 码 王 。 

e 7 位 小 数字 段 frac 二 =f,_1… 所 fo 编码 尾数 M， 但 是 编码 出 来 的 值 也 依赖 于 阶 码 字 

段 的 值 是 否 等 于 0。 

图 2-32 给 出 了 将 这 三 个 字段 装 进 字 中 两 种 最 和 常 见 的 格式 。 在 单 精度 浮 点 格式 (C 语言 
中 的 float) 中 ，s、exp 和 frac 字段 分 别 为 1 位 、&=8 位 和 2 一 23 位 ， 得 到 一 个 32 位 的 
表示 。 在 双 精 度 浮 点 格式 (C 语言 中 的 double) 中 ，s、exp 和 frac 字段 分 别 为 1 位 、R 王 
11 位 和 zx 一 52 位 ， 得 到 一 个 64 位 的 表示 。 

单 精度 





63 62 52 51 32 


Fe frac (51:32) 






引 0 


frac(31:0) 


图 2-32 标准 浮 点 格式 ( 浮 点 数 由 3 个 字段 表示 。 两 种 最 常见 的 格式 是 它们 
被 封装 到 32 位 ( 单 精度 ) 和 64 位 ( 双 精 度 ) 的 字 中 ) 


给 定位 表示 ， 根 据 exp 的 值 ， 被 编码 的 值 可 以 分 成 三 种 不 同 的 情况 (最 后 一 种 情况 有 
两 个 变种 )。 图 2-33 说 明了 对 单 精度 格式 的 情况 。 


Ee 


2. 非 规 格 化 的 


i 













图 2-33 单 精度 浮 点 数值 的 分 类 ( 阶 码 的 值 决 定 了 这 个 数 是 规格 化 的 、 非 规格 化 的 或 特殊 值 ) 


情况 1: 规格 化 的 值 

这 是 最 普遍 的 情况 。 当 exp 的 位 模式 既 不 全 为 0( 数 值 0) ， 也 不 全 为 1( 单 精度 数值 为 
255， 双 精度 数值 为 2047) 时 ， 者 属于 这 类 情况 。 在 这 种 情况 中 ， 阶 码 字 段 被 解释 为 以 偏 置 
(biased) 形 式 表 示 的 有 符号 整数 。 也 就 是 说 ， 阶 码 的 值 是 = 二 e 一 Bias， 其 中 e 是 无 符号 数 ， 
其 位 表示 为 @-_1"…eies， 而 Bias 是 一 个 等 于 2 ”一 1( 单 精度 是 127， 双 精度 是 1023) 的 偏 置 
值 。 由 此 产生 指数 的 取 值 范围 ， 对 于 单 精 度 是 一 126 一 十 127， 而 对 于 双 精 度 是 一 1022 一 
十 1023 。 

小 数字 段 frac 被 解释 为 描述 小 数值 f/， 其 中 0 三 f 二 1， 其 二 进 制 表示 为 0. fi1… 
用 fo， 也 就 是 二 进 制 小 数 点 在 最 高 有 效 位 的 左边 。 尾 数 定义 为 M 二 1 十 f。 有 时 ， 这 种 方式 
也 叫做 隐 仿 的 以 1 开头 的 (implied leading 1) 表 示 ， 因 为 我 们 可 以 把 M 看 成 一 个 二 进 制 表 
达 式 为 1. fi1f,-，… fo 的 数字 。 既 然 我 们 总 是 能 够 调整 阶 码 ,使 得 尾数 M 在 范围 1 二 
M<2 之 中 (假设 没有 溢出 )， 那 么 这 种 表示 方法 是 一 种 轻松 获得 一 个 额外 精度 位 的 技巧 。 
既然 第 一 位 总 是 等 于 1， 那 么 我 们 就 不 需要 显 式 地 表示 它 。 

情况 2: 非 规格 化 的 值 

当 阶 码 域 为 全 0 时 ， 所 表示 的 数 是 非 规格 化 形式 。 在 这 种 情况 下 ， 阶 码 值 是 E=1 一 
Bias， 而 尾数 的 值 是 M 二 f+， 也 就 是 小 数字 有 段 的 值 ， 不 包含 隐 含 的 开头 的 1。 


EE 对 于 非 规 格 化 值 为 什么 要 这 样 设置 偏 置 值 
使 阶 码 值 为 1 一 Bias 而 不 是 简单 的 一 Bias 似乎 是 违反 直觉 的 。 我 们 将 很 快 看 到 ， 这 
种 方式 提供 了 一 种 从 非 规 格 化 值 平滑 转换 到 规格 化 值 的 方法 。 


非 规 格 化 数 有 两 个 用 途 。 首 先 ， 它 们 提供 了 一 种 表示 数值 0 的 方法 ， 因 为 使 用 规格 化 
数 ， 我 们 必须 总 是 使 M 宇 1， 因 此 我 们 就 不 能 表示 0。 实 际 上 ， 十 0.0 的 浮 点 表示 的 位 模式 为 
全 0: 符号 位 是 0， 阶 码 字 段 全 为 0( 表 明 是 一 个 非 规格 化 值 ) ， 而 小 数 域 也 全 为 0， 这 就 得 到 
M= 二 0。 令 人 奇怪 的 是 ， 当 符号 位 为 1， 而 其 他 域 全 为 0 时 ， 我 们 得 到 值 一 0.0。 根 据 
IEEE 的 浮 点 格式 ， 值 十 0.0 和 一 0.0 在 某 些 方面 被 认为 是 不 同 的 ， 而 在 其 他 方面 是 相同 的 。 

非 规格 化 数 的 另外 一 个 功能 是 表示 那些 非常 接近 于 0.0 的 数 。 它 们 提供 了 一 种 属性 ， 
称 为 逐渐 溢出 (gradual underflow)， 其 中 ， 可 能 的 数值 分 布 均匀 地 接近 于 0. 0 。 

情况 3: 特殊 值 

最 后 一 类 数值 是 当 指 阶 码 全 为 1 的 时 候 出 现 的 。 当 小 数 域 全 为 0 时， 得 到 的 值 表 示 无 
穷 ， 当 s 二 0 时 是 十 ce， 或 者 当 s=1 时 是 一 ce。 当 我 们 把 两 个 非常 大 的 数 相 乘 ， 或 者 除 以 零 
时 ， 无 穷 能 够 表示 溢出 的 结果 。 当 小 数 域 为 非 去 时 ， 结 果 值 被 称 为 “NaN”， 即 “不 是 一 个 
数 (Not a Number)” 的 缩写 。 一 些 运算 的 结果 不 能 是 实数 或 无 穷 ， 就 会 返回 这 样 的 NaN 值 ， 
比如 当 计 算 V 一 1 或 ce 一 ce 时 。 在 某 些 应 用 中 ， 表 示 未 初始 化 的 数据 时 ， 它 们 也 很 有 用 处 。 


2.4.3 数字 示例 


图 2-34 展示 了 一 组 数值 ， 它 们 可 以 用 假定 的 6 位 格式 来 表示 ， 有 上 二 3 的 阶 码 位 和 7 一 
2 的 尾数 位 。 偶 置 量 是 2” 一 1=3。 图 中 的 a 部 分 显示 了 所 有 可 表示 的 值 ( 除 了 NaN)。 两 
个 无 穷 值 在 两 个 末端 。 最 大 数量 值 的 规格 化 数 是 十 14。 非 规格 化 数 聚 集 在 0 的 附近 。 图 的 
b 部 分 中 ， 我 们 只 展示 了 介 于 一 1.0 和 十 1.0 之 间 的 数值 ， 这 样 就 能 够 看 得 更 加 清楚 了 。 
两 个 零 是 特殊 的 非 规格 化 数 。 可 以 观察 到 ， 那 些 可 表示 的 数 并 不 是 均 义 分布 的 一 一 越 靠 近 
原点 处 它们 越 稠 密 。 
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一 o -10 -5 0 +5 +10 十 oo 
。 韭 规 格 化 的 ”a 规格 化 的 ”无 穷 
a) 完整 范围 
一 0 ++0 
=:] 一 0.8 一 站 各 一 0.4 一 0.2 0 十 0.2 十 0.4 十 0.6 十 0.8 十 ] 


s 非 规 格 化 的 ”a 规格 化 的 “日 无 穷 
b) 范围 在 -1.0 ~+1.0 的 数值 
图 2-34 6 位 浮 点 格式 可 表示 的 值 (k==3 的 阶 码 位 和 n= 二 2 的 尾数 位 。 偏 置 量 是 3) 
图 2-35 展示 了 假定 的 8 位 浮 点 格式 的 示例 ， 其 中 有 二 4 的 阶 码 位 和 二 3 的 小 数位 。 
偏 置 量 是 2”' 一 1 二 7。 图 被 分 成 了 三 个 区 域 ， 来 描述 三 类 数字 。 不 同 的 列 给 出 了 阶 码 字段 
是 如 何 编 码 阶 码 EE 的 ， 小 数字 上 段 是 如 何 编 码 尾 数 M 的 ， 以 及 它们 一 起 是 如 何 形成 要 表示 
Ne EE 这 种 格式 的 非 规 格 化 数 的 


E=1 一 ?= 一 6， 得 到 权 2 一 襄 。 小 数 的 值 的 范围 是 0， 志 ，…， 吝 ， 从 而 得 到 数 V 的 


0 0000 000 

最 小 的 非 规 格 化 数 0 0000 001 0.001953 
0 0000 010 0.003906 
0 0000 011 0.005859 


最 大 的 非 规格 化 数 0 0000 111 0.013672 


最 小 的 规格 化 数 0 0001 000 
0 0001 001 
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图 2-35 8 位 浮 点 格式 的 非 负 值 示 例 (k=4 的 阶 码 位 的 和 二 3 的 小 数位 。 偶 置 量 是 7) 
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这 种 形式 的 最 小 规格 化 数 同样 有 下 =1 一 7 一 一 6， 并 且 小 数 取 值 范围 也 为 0， 去，…， 





. 然而 ， 尾 数 在 范围 1 十 0 一 1 和 1 十 让 一 之 间 ， 得 出 数 V 在 范围 5 一 启 和 二 5 之 间 。 


第 2 章 信息 的 表示 和 处 理 81 


可 以 观察 到 最 大 非 规格 化 数 =75 和 最 小 规格 化 数 二 5 之 间 的 平滑 转变 。 这 种 平滑 性 归功 


于 我 们 对 非 规格 化 数 的 正 的 定义 。 通 过 将 巨 定义 为 1 一 Bias， 而 不 是 一 Bies， 我 们 可 以 补 
偿 非 规格 化 将 的 尾数 没有 隐 含 的 开头 的 1。 
当 增 大 阶 码 时 ， 我 们 成 功 地 得 到 更 大 的 规格 化 值 ， 通 过 1. 0 后 i 


这 个 数 具 有 阶 码 EE= 二 7， 得 到 一 个 权 2 二 128。 小 数 等 于 二 得 到 尾数 M 一 。 因 此 ， 数 值 


是 V=240。 超 出 这 个 值 就 会 溢出 到 十 ce。 

这 种 表示 具有 一 个 有 趣 的 属性 ， 假 如 我 们 将 图 2-35 中 的 值 的 位 表达 式 解 释 为 无 符号 
整数 ， 它 们 就 是 按 升序 排列 的 ， 就 像 它 们 表示 的 浮 点 数 一 样 。 这 不 是 偶然 的 一 一 IEEE 格 
式 如 此 设计 就 是 为 了 浮 点 数 能 够 使 用 整数 排序 函数 来 进行 排序 。 当 处 理 负 数 时 ， 有 一 个 小 
的 难点 ， 因 为 它们 有 开头 的 1， 并 且 它 们 是 按照 降序 出 现 的 ， 但 是 不 需要 浮 点 运 云 算 来 进行 
比较 也 能 解决 这 个 问题 (参见 家 庭 作 业 2. 84) 。 

区 号 练习 题 2. 47 假设 一 个 基于 IEEE 浮 点 格式 的 5 位 浮 点 表示 ， 有 1 个 符号 位 、2 个 阶 

码 位 (k= 二 2) 和 两 个 小 数位 (n 二 2)。 阶 码 偏 置 量 是 2* "一 1 二 1。 

下 表 中 列举 了 这 个 5 位 浮 点 表示 的 全 部 非 负 取 值 范围 。 使 用 下 面 的 条 件 ， 填 写 表格 中 

的 空白 项 : 

e: 假定 阶 码 字 段 是 一 个 无 符号 整数 所 表示 的 值 。 

EE: 偏 置 之 后 的 阶 码 值 。 

2*; 阶 码 的 权重 。 

小 数值 。 

M: 尾数 的 值 。 

2 XM: 该 数 ( 未 归 约 的 ) 小 数值 。 

V: 该 数 归 约 后 的 小 数值 。 

十 进 制 : 该 数 的 十 进 制 表示 。 


写 出 2£<、f、M、25XM 和 V 的 值 ， 要么 是 整数 (如 果 可 能 的 话 )， 要 么 是 形 如 了 
的 小 数 ， 这 里 y 是 2 的 矫 。 标 注 为 “一 ”的 条 目 不 用 填 。 


ee ee es 
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图 2-36 展示 了 一 些 重 要 的 单 精度 和 双 精 度 浮 点 数 的 表示 和 数字 值 。 根 据 图 2-35 中 展 
示 的 8 位 格式 ， 我 们 能 够 看 出 有 位 阶 码 和 位 小 数 的 浮 点 表示 的 一 般 属 性 。 


最 小 非 规格 化 数 nig ep 和- 52 x 7 一 1022 49 x 10-324 


最 大 非 规 格 化 数 ee 汪 (1— s) x2-126 12x103 | (l=e) x2- 0 | 227x10-308 
最 小 规格 化 数 FG 1x 2~126 1.2 x 10™38 1 x2-102 22 x 10 308 
1 ss .a 1 x20 1.0 1 x2° 1.0 

最 大 规格 化 数 i : (2— &) x2127 3.4 x 1038 (2 一 5E) X21023 | 1.8 x10308 





图 2-36 非 负 浮 点 数 的 示例 


e 值 十 0.0 总 有 一 个 全 为 0 的 位 表示 。 
e 最 小 的 正 非 规格 化 值 的 位 表示 ， 是 由 最 低 有 效 位 为 1 而 其 他 所 有 位 为 0 构成 的 。 它 
具有 小 数 ( 和 尾数 ) 值 M= =2 "和 阶 码 值 王 一 2 和 :十 2。 因 此 它 的 数字 值 是 
V 一 2-" 一 2 +2 
e 最 大 的 非 规格 化 值 的 位 模式 是 由 全 为 0 的 阶 码 字 段 和 全 为 1 的 小 数字 段 组 成 的 。 它 
有 小 数 ( 和 尾数 ) 值 M= f 王 1 一 2 (我 们 写成 1 一 e) 和 阶 码 值 王 = 一 2 所 :十 2。 因 此 ， 
数值 V=(1 一 2-")X2-* +2， 这 仅 比 最 小 的 规格 化 值 小 一 点 。 
e 最 小 的 正规 格 化 值 的 位 模式 的 阶 码 字 段 的 最 低 有 效 位 为 1， 其 他 位 全 为 0。 它 的 尾 
数值 M 王 1， 而 阶 码 值 E= 一 2! 十 2。 因 此 ， 数值 V=2-*” + 。 
e 值 1.0 的 位 表示 的 阶 码 字段 除了 最 高 有 效 位 等 于 1 以 外 ， 其 他 位 都 等 于 0。 它 的 尾 
数值 是 M 王 1， 而 它 的 阶 码 值 是 五 =0。 
e 最 大 的 规格 化 值 的 位 表示 的 符号 位 为 0， 阶 码 的 最 低 有 效 位 等 于 0， 其 他 位 等 于 1。 
它 的 小 数值 F 二 1 一 2 一 ， 尾 数 M=2 一 2 "( 我 们 写作 2 一 e)。 它 的 阶 码 值 E==2”' 一 
1， 得 到 数值 V=(2 一 2-"*)X2* 一!=(1 一 2-"!1)X2* ， 
练习 把 一 些 整数 值 转换 成 浮 点 形式 对 理解 浮 点 表示 很 有 用 。 例 如 ， 在 图 2-15 中 我 们 
看 到 12 345 具有 二 进 制 表示 L11000000111001j。 通 过 将 二 进 制 小 数 点 左 移 13 位 ， 我 们 创 
建 这 个 数 的 一 个 规格 化 表示 ， 得 到 12345 王 1. 1000000111001, X2*。 为 了 用 IEEE 单 精 度 
形式 来 编码 ， 我 们 丢弃 开头 的 1， 并且 在 末尾 增加 10 个 0， 来 构造 小 数字 段 ， 得 到 二 进 制 
表示 [L10000001110010000000000]。 为 了 构造 阶 码 字段 ， 我 们 用 13 加 上 偏 置 量 127， 得 到 
140， 其 二 进 制 表示 为 L10001100]。 加 上 符号 位 0， 我 们 就 得 到 二 进 制 的 浮 点 表示 
[01000110010000001110010000000000]。 回 想 一 下 2.1.3 节 ， 我们 观察 到 整数 值 12345 
(0x3039) 和 单 精度 浮 点 值 12345.0(0x4640E400) 在 位 级 表示 上 有 下 列 关 系 : 


0 0 0 0 3 0 3 9 
00000000000000000011000000111001 
来 来 来 炒 来 来 来 来 来 素来 来 炒 
4 6 4 0 E 4 0 0 
01000110010000001110010000000000 


现在 我 们 可 以 看 到 ， 相 关 的 区 域 对 应 于 整数 的 低位 ， 刚 好 在 等 于 1 的 最 高 有 效 位 之 前 
停止 (这 个 位 就 是 隐 含 的 开头 的 位 1)， 和 浮 点 表示 的 小 数 部 分 的 高 位 是 相 匹 配 的 。 
过 s 练习 题 2.48 正如 在 练习 题 2.6 中 提 到 的 ， 整 数 3 510 593 的 十 六 进 制 表示 为 
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0x00359141， 而 单 精 度 浮 点 数 3510593.0 的 十 六 和 进 制 表示 为 0x4A564504。 推 导出 这 
个 浮 点 表示 ， 并 解释 整数 和 浮 点 数 表示 的 位 之 间 的 关系 。 
让 刺 练习 题 2. 49 
A. 对 于 一 种 具有 位 小 数 的 浮 点 格式 ， 给 出 不 能 准确 描述 的 最 小 正 整 数 的 公式 (因为 
要 想 准 确 表 示 它 需要 nn 十 1 位 小 数 )。 假 设 阶 码 字 段 长 度 尺 足够 大 ， 可 以 表示 的 阶 
码 范 围 不 会 限制 这 个 问题 。 
B. 对 于 单 精度 格式 (n= 二 23)， 这 个 整数 的 数字 值 是 多 少 ? 


2.4.4 舍 入 


因为 表示 方法 限制 了 浮 点 数 的 范围 和 精度 ， 所 以 浮 点 运算 只 能 近似 地 表示 实数 运算 。 
因此 ， 对 于 值 zx， 我 们 一 般 想 用 一 种 系统 的 方法 ， 能 够 找到 “最 接近 的 ”匹配 值 x ， 它 可 
以 用 期 望 的 浮 点 形式 表示 出 来 ， 这 就 是 舍 入 (rounding) 运 算 的 任务 。 一 个 关键 问题 是 在 两 
个 可 能 值 的 中 间 确 定 舍 人 方向 。 例 如 ， 如 果 我 有 1. 50 美元 ， 想 把 它 舍 人 到 最 接近 的 美元 
数 ， 应 该 是 1 美元 还 是 2 美元 呢 ? 一 种 可 选择 的 方法 是 维持 实际 数字 的 下 界 和 上 界 。 例 
如 ， 我 们 可 以 确定 可 表示 的 值 x 和 x ”， 使 得 xz 的 值 位 于 它们 之 间 : x 三 x 二 x  。IEEE 
浮 点 格式 定义 了 四 种 不 同 的 舍 入 方式 。 默 认 的 方法 是 找到 最 接近 的 匹配 ， 而 其 他 三 种 可 用 
于 计算 上 界 和 下 界 。 

图 2-37 举例 说 明了 四 种 舍 入 方式 ， 将 一 个 金额 数 合 入 到 最 接近 的 整数 美元 数 。 向 偶 
数 舍 人 (round-to-even) ， 也 被 称 为 回 最 接近 的 值 伟人 (round-to-nearest) ， 是 默认 的 方式 ， 
试图 找到 一 个 最 接近 的 匹配 值 。 因 此 ， 它 将 1. 40 美元 舍 入 成 1 美元， 而 将 1. 60 美元 舍 人 
成 2 美元 ， 因 为 它们 是 最 接近 的 整数 美元 值 。 唯 一 的 设计 决策 是 确定 两 个 可 能 结果 中 间 数 
值 的 舍 人 效果 。 回 偶数 伟人 方式 采用 的 方法 是 : 它 将 数字 向 上 或 者 向 下 舍 人 人， 使 得 结果 的 
最 低 有 效 数 字 是 偶数 。 因此， 这 种 方法 将 1. 5 美元 和 2. 5 美元 都 舍 入 成 2 美元 。 





图 2-37 以 美元 舍 人 为 例 说 明 舍 人 方式 (第 一 种 方法 是 含 人 到 一 个 最 接近 的 值 ， 
而 其 他 三 种 方法 向 上 或 向 下 限定 结果 ， 单 位 为 美元 ) 

其 他 三 种 方式 产生 实际 值 的 确 界 (guaranteed bound)。 这 些 方法 在 一 些 数字 应 用 中 是 
很 有 用 的 。 癌 零售 人 方式 把 正 数 向 下 舍 人 ， 把 负数 向 上 伟人 ， 得 到 值 公 ， 使 得 | 至 | 委 |z|。 
癌 下 伟人 方式 把 正 数 和 负数 都 疝 下 舍 人 ， 得 到 值 x ， 使 得 x 委 z。 问 上 伟人 方式 把 正 数 
和 负数 都 向 上 伟人 ， 得 到 值 xz”， 满足 x 三 x1。 

向 偶数 舍 人 初 看 上 去 好 像 是 个 相当 随意 的 目标 有 什么 理由 偶 回 取 偶 数 呢 ? 为 什么 
不 始终 把 位 于 两 个 可 表示 的 值 中 间 的 值 都 向 上 含 人 呢 ? 使 用 这 种 方法 的 一 个 问题 就 是 很 容 
易 假 想到 这 样 的 情景 : 这 种 方法 舍 人 一 组 数值 ， 会 在 计算 这 些 值 的 平均 数 中 引入 统计 偏 
差 。 我 们 采用 这 种 方式 舍 入 得 到 的 一 组 数 的 平均 值 将 比 这 些 数 本 身 的 平均 值 略 高 一 些 。 相 
反 ， 如 果 我 们 总 是 把 两 个 可 表示 值 中 间 的 数字 向 下 舍 人 ， 那 么 舍 人 后 的 一 组 数 的 平均 值 将 
比 这 些 数 本 身 的 平均 值 略 低 一 些 。 疝 偶数 舍 入 在 大 多 数 现实 情况 中 避免 了 这 种 统计 偏差 。 
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在 50% 的 时 间 里 ， 它 将 向 上 舍 人 ， 而 在 50% 的 时 间 里 ， 它 将 向 下 人 备 人 入。 

在 我 们 不 想 舍 人 到 整数 时 ， 也 可 以 使 用 向 偶数 合 入 。 我 们 只 是 简单 地 考虑 最 低 有 效 数 
字 是 奇数 还 是 偶数 。 例 如 ， 假设 我 们 想 将 十 进 制 数 合 入 到 最 接近 的 百 分 位 。 不 管用 那 种 舍 
入 方式 ， 我 们 都 将 把 1. 2349999 舍 人 入 到 1. 23， 而 将 1. 2350001 伟人 到 1. 24， 因 为 它们 不 
是 在 1.23 和 1.24 的 正中 间 。 男 一 方面 我 们 将 把 两 个 数 1. 2350000 和 1. 2450000 都 舍 和 人 到 
1. 24， 因 为 4 是 偶数 。 

相似 地 ， 向 偶数 会 人 法 能 够 运用 在 二 进 制 小 数 上 。 我 们 将 最 低 有 效 位 的 值 0 认为 是 偶 
数 ， 值 1 认为 是 奇数 。 一 般 来 说 ， 只 有 对 形 如 XX…X.YY…Y100… 的 二 进 制 位 模式 的 数 ， 
这 种 舍 人 入 方式 才 有 效 ， 其 中 XX 和 YY 表示 任意 位 值 ， 最 右边 的 Y 是 要 被 含 人 的 位 置 。 只 有 
这 种 位 模式 表示 在 两 个 可 能 的 结果 正中 间 的 值 。 例如， 考虑 舍 入 值 到 最 近 的 四 分 之 一 的 问 


题 (也 就 是 二 进 制 小 数 点 右边 2 位 )。 我 们 将 10. 00011， (2 六 ) 向 下 伟人 到 j0. 00, (27， 
10. 00110, (23 讲 ) 向 上 合 人 到 10.01, (2 天)， 因为 这 些 值 不 是 两 个 可 能 值 的 正中 间 值 。 我 们 将 


10. 11100; (2 言 )] 向 上 伟人 成 11.00:(3)， 而 10. 10100; (2 言 ) 向 下 伟人 成 10. 10; (2 5) 因为 


2 
这 些 值 是 两 个 可 能 值 的 中 间 值 ， 并 且 我 们 倾向 于 使 最 低 有 效 位 为 零 。 
区 到 练习 题 2. 50 根据 含 入 到 偶数 规则 ， 说 明 如 何 将 下 列 二 进 制 小 数值 含 入 到 最 接近 的 
二 分 之 一 (二 进 制 小 数 点 右边 1 位 )。 对 每 种 情况 ， 给 出 含 入 前 后 的 数字 值 。 
A. 10: 010， 
B. 10.011; 
C. 10, 110; 
D: 11. 001 
证 弹 练习 题 2.51 在 练习 题 2.46 中 我 们 看 到 ， 爱 国 者 导弹 软件 将 0.1 近似 表示 为 z= 
0. 00011001100110011001100; 。 假 设 使 用 IEEE 舍 入 到 偶数 方式 来 确定 0.1 的 二 进 制 
小 数 点 右边 23 位 的 近似 表示 工 。 
A. z 的 二 进 制 表 示 是 什么 ? 
B. x 一 0. 1 的 十 进 制 表 示 的 近似 值 是 什么 ? 
C. 运行 100 小 时 后 ， 计 算 时 钟 值 会 有 多 少 偏差 ? 
D. 该 程序 对 飞毛腿 导弹 位 置 的 预测 会 有 多 少 偏差 ? 
语 弹 练习 题 2.52 考虑 下 列 基 于 IEEE 浮 点 格式 的 7 位 浮 点 表示 。 两 个 格式 都 没有 符号 
位 一 一 它们 只 能 表示 非 负 的 数字 。 
1. 格式 A 
@ 有 上 二 3 个 阶 码 位 。 阶 码 的 偏 置 值 是 3。 
@ 有 7 一 4 个 小 数位 。 
2. 格式 BB 
@ 有 kk 二 4 个 阶 码 位 。 阶 码 的 偏 置 值 是 7。 
@ 有 7 一 3 个 小 数位 。 
下 面 给 出 了 一 些 格式 A 表 示 的 位 模式 ， 你 的 任务 是 将 它们 转换 成 格式 B 中 最 接 
近 的 值 。 如 果 需 要 ， 请 使 用 爸 入 到 偶数 的 爸 入 原则 。 另 外 ， 给 出 由 格式 A 和 格式 也 
表示 的 位 模式 对 应 的 数字 的 值 。 给 出 整数 (例如 17) 或 者 小 数 (例如 17/64)。 
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011 0000 


i014 1110 


010 1001 
二 外 二 二 二 
000 0001 





2. 4.5 浮 点 运算 


IEEE 标准 指定 了 一 个 简单 的 规则 ， 来 确定 诸如 加 法 和 乘法 这 样 的 算术 运算 的 结果 。 
把 浮 点 值 x 和 y 看 成 实数 ， 而 某 个 运算 定义 在 实数 上 ， 计 算 将 产生 Round(xy)， 这 是 
对 实际 运算 的 精确 结果 进行 伟人 后 的 结果 。 在 实际 中 ， 浮 点 单元 的 设计 者 使 用 一 些 聪明 的 
小 技巧 来 避免 执行 这 种 精确 的 计算 ， 因 为 计算 只 要 精确 到 能 够 保证 得 到 一 个 正确 的 舍 人 结 
果 就 可 以 了 。 当 参数 中 有 一 个 是 特殊 值 ( 如 一 0、 一 se 或 NaN) 时 ，IEEE 标准 定义 了 一 些 
使 之 更 合理 的 规则 。 人 例如， 定义 1/ 一 0 将 产生 一 ce， 而 定义 1/ 十 0 会 产生 十 oo。 

IEEE 标准 中 指定 浮上 点 运算 行为 方法 的 一 个 优势 在 于 ， 它 可 以 独立 于 任何 具体 的 硬件 或 
者 软件 实现 。 因 此 ， 我 们 可 以 检查 它 的 抽象 数学 属性 ， 而 不 必 考 虑 它 实 际 上 是 如 何 实现 的 。 

前 面 我 们 看 到 了 整数 (包括 无 符号 和 补 码 ) 加 法 形成 了 阿 贝尔 群 。 实 数 上 的 加 法 也 形成 了 
阿 贝 尔 群 ， 但 是 我 们 必须 考虑 舍 人 对 这 些 属性 的 影响 。 我 们 将 x 十 'y 定义 为 Roxuzd(Czr 十 y)。 
这 个 运算 的 定义 针对 x 和 yy 的 所 有 取 值 ， 但 是 虽然 x 和 yy 都 是 实数 ， 由 于 溢出 ， 该 运算 可 
能 得 到 无 穷 值 。 对 于 所 有 x 和 yy 的 值 ， 这 个 运算 是 可 交换 的 ， 也 就 是 说 x 十 y 二 y 十 区 。 田 
一 方面 ， 这 个 运算 是 不 可 结合 的 例如， 使 用 单 精度 浮 点 ， 表 达 式 (3. 14+1e10) -le10 求 
值得 到 0. 0 一 一 因为 合 入 ， 值 3. 14 会 丢失 。 男 一 方面 ， 表 达 式 3. 14+ (le10-1le10) 得 出 值 
3. 14。 作 为 阿 贝尔 群 ， 大 多 数值 在 浮 点 加 法 下 都 有 逆 元 ， 也 就 是 说 x 十 一 x 二 0。 无 穷 ( 因 
为 十 ce 一 co 天 NaN) 和 NaN 是 例外 情况 ， 因 为 对 于 任何 x， 都 有 NaN 十 'x== NaN，。 

浮 点 加 法 不 具有 结合 性 ， 这 是 缺少 的 最 重要 的 群 属性 。 对 于 科学 计算 程序 员 和 编译 器 
编写 者 来 说 ， 这 具有 重要 的 含义 。 例 如 ， 假 设 一 个 编译 需 给 定 了 如 下 代码 片段 : 

< 

=D+c+ ds 


编译 絮 可 能 试图 通过 产生 下 列 代码 来 省 去 一 个 浮 点 加 法 : 
t=b+ ce; 
X= a+ t; 
y=t+d; 


然而 ， 对 于 x 来 说 ， 这 个 计算 可 能 会 产生 与 原始 值 不 同 的 值 ， 因 为 它 使 用 了 加 法 运算 
的 不 同 的 结合 方式 。 在 大 多 数 应 用 中 ， 这 种 差异 小 得 无 关 紧 要 。 不 幸 的 是 ， 编 译 需 无 法 知 
道 在 效率 和 忠实 于 原始 程序 的 确切 行为 之 间 ， 使 用 者 愿意 做 出 什么 样 的 选择 。 结 果 是 ， 编 
译 需 倾向 于 保守 ， 避 免 任 何 对 功能 产生 影响 的 优化 ， 即 使 是 很 轻微 的 影响 。 

另 一 方面 ， 浮 点 加 法 满足 了 单调 性 属性 : 如 果 a 三 3， 那么 对 于 任何 a、6 以 及 zz 的 值 ， 
除了 NaN， 都 有 zz 十 二 Z 十 2。 无 符号 或 补 码 加 法 不 具有 这 个 实数 4 和 整数 ) 加 法 的 属性 。 

浮 点 乘法 也 遵循 通常 乘法 所 具有 的 许多 属性 。 我 们 定义 Z*'y 为 Round (zxXy)。 这 个 
运算 在 乘法 中 是 封闭 的 (虽然 可 能 产生 无 穷 大 或 NaN)， 它 是 可 交换 的 ， 而 且 它 的 乘法 单位 元 
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为 1.0。 男 一 方面 ， 由 于 可 能 发 生 灌 出， 或 者 由 于 舍 入 而 失去 精度 ， 它 不 具有 可 结合 性 。 例 
如 ， 单 精度 浮 点 情况 下 ， 表 达 式 (le20*le20) *le-20 求 值 为 十 co， 而 le20* (1e20*le-20) 将 
得 出 le20。 另 外 ， 浮 点 乘法 在 加 法 上 不 具备 分 配 性 。 例 如 ， 单 精度 浮 点 情况 下 ， 表 达 式 
le20* (le20-le20) 求 值 为 0.0， 而 le20*le20-le20*le20 会 得 出 NaN。 
另 一 方面 ， 对 于 任何 a、b 和 c， 并 且 a、b 和 都 不 等 于 NaN， 浮 点 乘法 满足 下 列 单调 性 : 
eb 有 cec220 可 
Ef be 
此 外 ， 我 们 还 可 以 保证 ， 只 要 a 了 关 NaN， 就 有 ax*'4 宇 0。 像 我 们 先前 所 看 到 的 ， 无 符 
号 或 补 码 的 乘法 没有 这 些 单调 性 属性 。 
对 于 科学 计算 程序 员 和 编译 器 编写 者 来 说 ， 和 缺乏 结合 性 和 分 配 性 是 很 严重 的 问题 。 即 
使 为 了 在 三 维 空间 中 确定 两 条 线 是 否 交 叉 而 写 代码 这 样 看 上 去 很 简单 的 任务 ， 也 可 能 成 为 
一 个 很 大 的 挑战 。 


2. 4.6 CC 语言 中 的 浮 点 数 


所 有 的 C 语 言 版 本 提供 了 两 种 不 同 的 浮 点 数据 类 型 ，float 和 double。 在 支持 IEEE 浮 点 
格式 的 机 器 上 ， 这 些 数据 类 型 就 对 应 于 单 精 度 和 双 精 度 浮 点 。 另 外 ， 这 类 机 器 使 用 向 偶数 舍 人 
的 伟人 人 方式。 不幸 的 是 ， 因 为 C 语 言 标准 不 要 求 机 器 使 用 IEEE 浮 点 ， 所 以 没有 标准 的 方法 来 
改变 伟人 方式 或 者 得 到 诸如 一 0、 十 ce、 一 ce 或 者 NaN 之 类 的 特殊 值 。 大 多 数 系 统 提供 
include(“  .h”) 文 件 和 读 取 这 些 特征 的 过 程 库 ， 但 是 细节 随 系 统 不 同 而 不 同 。 例 如 ， 当 程序 文件 中 
出 现下 列 句 子 时 ，GNU 编译 需 GCC 会 定义 程序 常数 INFINITY( 表 示 十 cc) 和 NAN( 表 示 NaN): 

#define _GNU_SOURCE 1 

#include <math.h> 
让 练习 题 2.53 完成 下 列 宏 定义 ， 生 成 双 精 度 值 十 ceo、 一 co 和 0: 


#define POS_INFINITY 
#define NEG_INFINITY 
#define NEG_ZERO 


不 能 使 用 任何 include 文件 (例如 math.h),， 但 你 能 利用 这 样 一 个 事实 : 双 精 度 

能 够 表示 的 最 大 的 有 限 数 ， 大 约 是 1.8X10” 。 

当 在 int、float 和 double 格式 之 间 进 行 强 制 类 型 转换 时 ， 程 序 改变 数值 和 位 模式 

的 原则 如 下 (假设 int 是 32 位 的 ): 

e 从 int 转换 成 float， 数 字 不 会 溢出 ， 但 是 可 能 被 舍 人 。 

@ 从 int 或 float 转换 成 double， 因 为 double 有 更 大 的 范围 (也 就 是 可 表示 值 的 范 
围 ) ， 也 有 更 高 的 精度 (也 就 是 有 效 位 数 ) ， 所 以 能 够 保留 精确 的 数值 。 

e 从 double 转换 成 float， 因 为 范围 要 小 一 些 ， 所 以 值 可 能 溢出 成 十 ce 或 一 ce 。 另 
外 ， 由 于 精确 度 较 小 ， 它 还 可 能 被 含 人 。 

@ 从 float 或 者 double 转换 成 int， 值 将 会 向 零售 人 。 例 如 ，1. 999 将 被 转换 成 1， 
而 一 1. 999 将 被 转换 成 一 1。 进 一 步 来 说 ， 值 可 能 会 溢出 。C 语言 标准 没有 对 这 种 情 
况 指 定 固定 的 结果 。 与 Intel 兼容 的 微 处 理 器 指定 位 模式 [10…00j]( 字 长 为 ww 时 的 
TMin,) 为 整数 不 确定 (integer indefinite) 值 。 一 个 从 浮 点 数 到 整数 的 转换 ， 如 果 不 
能 为 该 浮 点 数 找到 一 个 合理 的 整数 近似 值 ， 就 会 产生 这 样 一 个 值 。 因 此 ， 表 达 式 
(int)+lel0 会 得 到 -21483648， 即 从 一 个 正 值 变 成 了 一 个 负 值 。 
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EE Mane 5 一 学 不 这 四 的 背 训 不 从 

将 大 的 浮 点 数 转换 成 整数 是 一 种 常见 的 程序 错误 来 源 。1996 年 6 月 4 日 ，Ariane 5 
火箭 初次 航行 ， 一 个 错误 便 产 生 了 灾难 性 的 后 果 。 发 射 后 仅仅 37 秒 钟 ， 火 葡 偏 离 了 它 
的 飞行 路 径 ， 解 体 并 且 爆 炸 。 火 箭 上 载 有 价值 5 亿美 元 的 通信 卫星 。 

后 来 的 调查 [73，33 |] 显示 ， 控 制 惯 性 导航 系统 的 计算 机 向 控制 引擎 喷嘴 的 计算 机 发 
送 了 一 个 无 效 数据 。 它 没有 发 送 飞 行 控制 信息 ， 而 是 送出 了 一 个 诊断 位 模式 ， 表 明 在 将 
一 个 64 位 浮 点 数 转换 成 16 位 有 符号 整数 时 ， 产生 了 溢出 。 

溢出 的 值 测量 的 是 火 将 的 水 平 速 率 ， 这 上 比 早 先 的 Ariane 4 火箭 所 能 达到 的 速度 高 出 
了 5 倍 。 在 设计 Ariane 4 火 靖 软件 时 ， 他 们 小 心地 分 析 了 这 些 数 字 值 ， 并 且 确 定 水 平 速 
率 决 不 会 超出 一 个 16 位 数 的 表示 范围 。 不 幸 的 是 ， 他 们 在 Ariane 5 火箭 的 系统 中 简单 
地 重用 了 这 一 部 分 ， 而 没有 检查 它 所 基于 的 假设 。 


区 练习 题 2.54 假定 变量 x、f 和 dd 的 类 型 分 别 是 int、float 和 double。 除 了 f 和 dd 者 
不 能 等 于 十 se 、 一 ce 或 者 NaN， 它 们 的 值 是 任意 的 。 对 于 下 面 每 个 C 表 达 式 ， 证明 它 
总 是 为 真 (也 就 是 求 值 为 1)， 或 者 给 出 一 个 使 表达 式 不 为 真 的 值 (也 就 是 求 值 为 0)。 
A: x== (int) (GoabLe) x 

B. x== (int) (float) x 

Ca == (double) (float) d 

D. £== (float) (double) f 

E, £ Se 一 《一 企 ) 

bh, 1072 == 1/2.0 

G. d*d >= 0.0 

H. (f+d)-f == 


2.5 小 结 


计算 机 将 信息 编码 为 位 (比特 )， 通 常 组 织 成 字 节 序列 。 有 不 同 的 编码 方式 用 来 表示 整数 、 实 数 和 字 
符 串 。 不 同 的 计算 机 模型 在 编码 数字 和 多 字 节 数据 中 的 字 节 顺序 时 使 用 不 同 的 约定 。 

C 语 言 的 设计 可 以 包容 多 种 不 同 字 长 和 数字 编码 的 实现 。64 位 字 长 的 机 器 逐渐 普及 ， 并 正在 取代 统治 
市 场 长 达 30 多 年 的 32 位 机 器 。 由 于 64 位 机 器 也 可 以 运行 为 32 位 机 器 编译 的 程序 ， 我 们 的 重点 就 放 在 区 
分 32 位 和 64 位 程序 ， 而 不 是 机 器 本 身 。64 位 程序 的 优势 是 可 以 突破 32 位 程序 具有 的 4GB 地 址 限制 。 

大 多 数 机 器 对 整数 使 用 补 码 编码 ， 而 对 浮 点 数 使 用 IEEE 标准 754 编码 。 在 位 级 上 理解 这 些 编码 ， 并 
且 理解 算术 运算 的 数学 特性 ， 对 于 想 使 编写 的 程序 能 在 全 部 数值 范围 上 正确 运算 的 程序 员 来 说 ， 是 很 重要 的 。 

在 相同 长 度 的 无 符号 和 有 符号 整数 之 间 进 行 强制 类 型 转换 时 ， 大 多 数 C 语言 实现 遵循 的 原则 是 底层 
的 位 模式 不 变 。 在 补 码 机 融 上 ， 对 于 一 个 也 位 的 值 ， 这 种 行为 是 由 函数 T2U- 和 U2T, 来 描述 的 。C 语 
言 隐 式 的 强制 类 型 转换 会 出 现 许 多 程序 员 无 法 预计 的 结果 ， 和 常常 导致 程序 错误 。 

由 于 编码 的 长 度 有 限 ， 与 传统 整数 和 实数 运算 相 比 ， 计 算 机 运算 具有 非常 不 同 的 属性 。 当 超出 表示 
范围 时 ， 有 限 长 度 能 够 引起 数值 溢出 。 当 浮 点 数 非 常 接近 于 0.0， 从 而 转换 成 零 时 ， 也 会 下 滋 。 

和 大 多 数 其 他 程序 语言 一 样 ，C 语言 实现 的 有 限 整 数 运算 和 真实 的 整数 运算 相 比 ， 有 一 些 特殊 的 属 
性 。 例 如 ， 由 于 溢出， 表达 式 x*x 能 够 得 出 负数 。 但 是 ， 无 符号 数 和 补 码 的 运算 都 满足 整数 运算 的 许多 
其 他 属性 ， 包 括 结合 律 、 交 换 律 和 分 配 律 。 这 就 允许 编译 器 做 很 多 的 优化 。 例 如 ， 用 (x<<3) -x 取代 表达 
式 7*x 时 ， 我们 就 利用 了 结合 律 、 交 换 律 和 分 配 律 的 属性 ， 还 利用 了 移 位 和 乘 以 2 的 军 之 间 的 关系 。 

我 们 已 经 看 到 了 几 种 使 用 位 级 运算 和 算术 运算 组 合 的 聪明 方法 。 例 如 ， 使 用 补 码 运算 ，~x+1 等 价 于 
-x。 男 外 一 个 例子 ， 假 设 我 们 想 要 一 个 形 如 [0，*…,，0，1，…， 1 的 位 模式 ， 由 w 一 k& 个 0 后 面 紧 跟着 
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个 1 组 成 。 这 些 位 模式 有 助 于 掩 码 运算 。 这 种 模式 能 够 通过 C 表达 式 (1<<k) -1 生成， 利用 的 是 这 样 一 个 
属性 ， 即 我 们 想 要 的 位 模式 的 数值 为 2 一 1。 人 例如， 表达 式 (1<<8) -1 将 产生 位 模式 0xFF。 

浮 点 表示 通过 将 数字 编码 为 工 x2? 的 形式 来 近似 地 表示 实数 。 最 常见 的 浮 点 表示 方式 是 由 IEEE 标 
准 754 定义 的 。 它 提供 了 几 种 不 同 的 精度 ， 最 常见 的 是 单 精 度 (32 位 ) 和 双 精 度 (64 位 )。IEEE 浮 点 也 能 
够 表示 特殊 值 十 cc、 一 < 和 NaN。 

必须 非常 小 心地 使 用 浮 点 运算 ， 因 为 浮 点 运算 只 有 有 限 的 范围 和 精度 ， 而 且 并 不 遵守 普遍 的 算术 属 
性 ， 比 如 结合 性 。 


参考 文献 说 明 


关于 C 语言 的 参考 书 L45，61j 讨 论 了 不 同 的 数据 类 型 和 运算 的 属性 。( 这 两 本 书 中 ， 只 有 Steele 和 
Harbison 的 书 [45] 涵 盖 了 ISO C99 中 的 新 特性 。 目 前 还 没有 看 到 任何 涉及 ISO C11 新 特性 的 书籍 。) 对 于 
精确 的 字 长 或 者 数字 编码 C 语言 标准 没有 详细 的 定义 。 这 些 细 节 是 故意 省 去 的 ， 这 样 可 以 在 更 大 范围 的 
不 同 机 器 上 实现 C 语 言 。 已 经 有 几 本 书 [59，74j 给 了 C 语言 程序 员 一 些 建 议 ， 警 告 他 们 关于 溢出 、 隐 式 
强制 类 型 转换 到 无 符号 数 ， 以 及 其 他 一 些 已 经 在 这 一 章 中 谈 及 的 陷阱 。 这 些 书 还 提供 了 对 变量 命名 、 编 
码 风 格 和 代码 测试 的 有 益 建 议 。Seacord 的 书 L97j 是 关于 C 和 C++ 程序 中 的 安全 问题 的 ， 本 书 结合 了 C 
程序 的 有 关 信 息 ， 介 绍 了 如 何 编译 和 执行 程序 ， 以 及 漏洞 是 如 何 造成 的 。 关 于 Java 的 书 ( 我 们 推荐 Java 
语言 的 创始 人 James Gosling 参与 编写 的 一 本 书 L5j]) 描 述 了 Java 支持 的 数据 格式 和 算术 运算 。 

关于 逻辑 设计 的 书 L58，116 都 有 关于 编码 和 算术 运算 的 章节 ， 描 述 了 实现 算术 电路 的 不 同方 式 。 
Overton 的 关于 IEEE 浮 点 数 的 书 L82]， 从 数字 应 用 程序 员 的 角度 ， 详 细 描 述 了 格式 和 属性 。 


家 庭 作 业 


+ 2.55 在 你 能 够 访问 的 不 同 机 器 上 ， 使 用 show bytes( 文 件 show-bytes.c) 编 译 并 运行 示例 代码 。 确 定 
这 些 机 器 使 用 的 字 节 顺序 。 

*2.56 试 着 用 不 同 的 示例 值 来 运行 show bytes 的 代码 。 

* 2.57 编写 程序 show short、show long 和 show double， 它 们 分 别 打 印 类 型 为 short、long 和 doub- 
le 的 C 语 言 对 象 的 字 节 表示 。 请 试 着 在 几 种 机 器 上 运行 。 

ww 2.58 编写 过 程 is _ little endian， 当 在 小 端 法 机 器 上 编译 和 运行 时 返回 1， 在 大 端 法 机 器 上 编译 运行 
时 则 返回 0。 这 个 程序 应 该 可 以 运行 在 任何 机 器 上 ， 无 论 机 器 的 字 长 是 多 少 。 

** 2.59 编写 一 个 C 表达 式 ， 它 生成 一 个 字 ， 由 x 的 最 低 有 效 字 节 和 y 中 剩 下 的 字 节 组 成 。 对 于 运算 数 x 
=0x89ABCDEF 和 y=0x76543210， 就 得 到 0x765432EF。 

** 2. 60 ”假设 我 们 将 一 个 多 位 的 字 中 的 字 节 从 0( 最 低位 ) 到 w/8 一 1( 最 高 位 ) 编 号 。 写 出 下 面 C 函数 的 代 
码 ， 它 会 返回 一 个 无 符号 值 ， 其 中 参数 x 的 字 节 i 被 替换 成 字 节 b: 


unsigned replace_byte (unsigned x, int i, unsigned char b) ; 


以 下 示例 ， 说 明了 这 个 函数 该 如 何 工作 : 
replace_byte(Ox12345678, 2, OxAB) --> Ox12AB5678 
replace_byte(Ox12345678, 0, OxAB) --> Ox123456AB 
位 级 整数 编码 规则 
在 接 下 来 的 作业 中 ， 我们 特意 限制 了 你 能 使 用 的 编程 结构 ， 来 帮 你 更 好 地 理解 C 语言 的 位 级 、 他 辑 
和 算术 运算 。 在 回答 这 些 问题 时 ， 你 的 代码 必须 遵守 以 下 规则 : 
9 假设 
@ 整数 用 补 码 形式 表示 。 
mn 有 符号 数 的 右 移 是 算术 右 移 。 
数据 类 型 int 是 也 位 长 的 。 对 于 某 些 题目 ， 会 给 定 zg 的 值 ， 但 是 在 其 他 情况 下 ， 只 要 忆 是 8 的 
整数 倍 ， 你 的 代码 就 应 该 能 工作 。 你 可 以 用 表达 式 sizeof (int)<<3 来 计算 多 。 


**» 2.01 


+* 2. 62 


kt# 2. 63 
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禁止 使 用 

@ 条件 语句 (if 或 者 ?:)、 循 环 、 分 支 语 句 、 子 数 调用 和 宏 调 用 。 

相对 比较 运算 (二 、 记 >、 二 = 二 和 这 ==)。 

允许 的 运算 

所 有 的 位 级 和 逻辑 运算 。 

@ 左 移 和 右 移 ，、 但 是 位 移 量 只 能 在 0 和 一 1 之 间 。 

a 加 法 和 减法 。 

a 相等 (二 = 二) 和 不 相等 (! ==) 测 试 。( 在 有 些 题目 中 ， 也 不 允许 这 些 运算 ,) 
a 整 型 常数 INT MIN 和 INT MAX。 

对 int 和 unsigned 进行 强制 类 型 转换 ， 无 论 是 显 式 的 还 是 隐 式 的 。 


即使 有 这 些 条 件 的 限制 ， 你 仍然 可 以 选择 带 有 描述 性 的 变量 名 ， 并 且 使 用 注释 来 描述 你 的 解决 方案 
的 逻辑 ， 尽 量 提 高 代码 的 可 读 性 。 例 如 ， 下 面 这 段 代码 从 整数 参数 x 中 抽取 出 最 高 有 效 字 节 : 


/* Get most significant byte from x */ 
int get_msb(int x) + 


/* Shift by w-8 */ 

int shift_val = (sizeof (int)-1)<<3; 
/* Arithmetic shift */ 

int xright = x >> shift_val; 

/* Zero all but LSB */ 

return xright & OxFF,; 


写 一 个 C 表 达 式 ， 在 下 列 描述 的 条 件 下 产生 1， 而 在 其 他 情况 下 得 到 0。 假设 x 是 int 类 型 。 

A. x 的 任何 位 都 等 于 1。 

B. x 的 任何 位 都 等 于 0。 

C. x 的 最 低 有 效 字 节 中 的 位 都 等 于 1。 

D. x 的 最 高 有 效 字 节 中 的 位 都 等 于 0。 

代码 应 该 遵循 位 级 整数 编码 规则 ， 男 外 还 有 一 个 限制 ， 你 不 能 使 用 相等 (= 二 = 二) 和 不 相等 (! =) 
测试 。 

编写 一 个 函数 int_shifts are arithmetic()， 在 对 int 类 型 的 数 使 用 算术 右 移 的 机 器 上 运行 时 
这 个 函数 生成 1， 而 其 他 情况 下 生成 0。 你 的 代码 应 该 可 以 运行 在 任何 字 长 的 机 器 上 。 在 几 种 机 器 
上 测试 你 的 代码 。 

将 下 面 的 C 函数 代码 补充 完整 。 函 数 srl 用 算术 右 移 (由 值 xsra 给 出 ) 来 完成 逻辑 右 移 ， 后 面 的 其 
他 操作 不 包括 右 移 或 者 除法 。 函 数 sra 用 逻辑 右 移 ( 由 值 xsrl 给 出 ) 来 完成 算术 右 移 ， 后 面 的 其 他 
操作 不 包括 右 移 或 者 除法 。 可 以 通过 计算 8*sizeof (int) 来 确定 数据 类 型 int 中 的 位 数 w。 位 移 
量 & 的 取 值 范围 为 0 一 也 一 1。 

unsigned srl(unsigned x, int k) +{ 


/* Perform shift arithmetically */ 
unsigned xsra = (int) x >> k; 


} 
int sra(int x, int k) +{ 


/* Perform shift logically */ 
int xsrl = (unsigned) x >> k; 
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" 2, 64 写 出 代码 实现 如 下 函数 ; 


/* Return 1 when any odd bit of x equals 1; 0 otherwise. 
Assume w=32 */ 
int any_odd_one(unsigned X) ; 


盟 数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 了 世 王 32 位 。 
*# 2.65 写 出 代码 实现 如 下 项 数 ， 
/* Return 1 when x contains an odd number of is; 0 otherwise-. 


Assume w=32 */ 
int odd_ones(unsigned x); 


函数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 w= 二 32 位 。 
你 的 代码 最 多 只 能 包含 12 个 算术 运算 、 位 运算 和 逻辑 运算 。 
*# 2.66 写 出 代码 实现 如 下 顶 数 : 

/* 

* Generate mask indicating leftmost 1 in x. Assume w=32. 

* For example, OxFFOO -> Ox8000, and Ox6600 --> Ox4000, 

* If x = 0, then return 0， 

*/ 


int leftmost_one(unsigned x); 


消 数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 也 一 32 位 。 
你 的 代码 最 多 只 能 包含 15 个 算术 运算 、 位 运算 和 逻辑 运算 。 
提示 : 先 将 x 转换 成 形 如 [0…011…1j] 的 位 向 量 。 
,+ 2.67 ”给 你 一 个 任务 ,编写 一 个 过 程 int size is 32()， 当 在 一 个 int 是 32 位 的 机 器 上 运行 时 ， 该 程 
序 产生 1， 而 其 他 情况 则 产生 0。 不 允许 使 用 sizeof 运算 符 。 下 面 是 开始 时 的 尝试 : 
/* The following code does not run properly on some machines */ 
int bad_int_size_is_32() { 
/* Set most significant bit (msb) of 32-bit machine */ 
int set_msb = 1 << 31; 


1 

2 

3 

4 

5 /* Shift past msb of 32-bit word */ 
6 int beyond msb = 1 << 32; 
7 

» 

9 

0 

1 


/* set_msb is nonzero when word size >= 32 
beyond_msb is Zero When word size <= 32 */ 
1 return set_msb && !beyond_msb; 
1 } 
当 在 SUN SPARC 这 样 的 32 位 机 右上 编译 并 运行 时 ， 这 个 过 程 返回 的 却 是 0。 下 面 的 编译 器 
信息 给 了 我 们 一 个 问题 的 指示 : 


warning: left Shift count >= width of type 


A. 我 们 的 代码 在 哪个 方面 没有 遵守 C 语言 标准 ? 

B. 修改 代码 ， 使 得 它 在 int 至 少 为 32 位 的 任何 机 器 上 都 能 正确 地 运行 。 

C. 修改 代码 ， 使 得 它 在 int 至 少 为 16 位 的 任何 机 器 上 都 能 正确 地 运行 
**2.68 写 出 具有 如 下 原型 的 函数 的 代码 : 

/* 

* Mask with least signficant n bits set to 1 

本 Examples: n = 6 --> Ox3F, n = 17 -~-> 0xlFFFF 

* Assume 1 <= 了 《= WV 

*/ 


int lower_one._mask(int n); 


盟 数 应 该 遵循 位 级 整数 编码 规则 。 要 注意 na 一 记 的 情况 。 
坟 2.69 写 出 具有 如 下 原型 的 函数 的 代码 : 
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/* 
* Do rotating left shift. Assume 0 <=n<w 
* Examples When X = Ox12345678 and Ww = 32: 
本 n=4 -> Ox23456781, n=20 -> 0x67812345 
*/ 
unsigned rotate_left(unsigned x, int n); 
晒 数 应 该 遵循 位 级 整数 编码 规则 。 要 注意 n= 二 0 的 情况 。 
“*2.70 写 出 具有 如 下 原型 的 郴 数 的 代码 : 
/* 
* Return 1 when x can be represented as an n-bit, 2's-complement 
* number; 0 otherwise 
* Assume 1 <= n <= Ww 
*/ 
int fits_bits(int x, int D) ; 
晒 数 应 该 遵循 位 级 整数 编码 规则 。 
“2.71 你 刚刚 开始 在 一 家 公司 工作 ， 他 们 要 实现 一 组 过 程 来 操作 一 个 数据 结构 ， 要 将 4 个 有 符号 字 节 封 
装 成 一 个 32 位 unsigned。 一 个 字 中 的 字 节 从 0( 最 低 有 效 字 节 ) 编 号 到 3( 最 高 有 效 字 节 )。 分 配给 
你 的 任务 是 : 为 一 个 使 用 补 码 运算 和 算术 右 移 的 机 器 编写 一 个 具有 如 下 原型 的 函数 : 


/* Declaration of data type where 4 bytes are packed 
into an unsigned */ 
typedef unsigned packed_t; 


/* Extract byte from word. Return as signed integer */ 
int xbyte(packed_t word, int bytenum) ; 


也 就 是 说 ， 肾 数 会 抽取 出 指定 的 字 节 ， 再 把 它 符号 扩展 为 一 个 32 位 int。 
你 的 前 任 ( 因 为 水 平 不 够 高 而 被 解雇 了 ) 编 写 了 下 面 的 代码 : 


/* Failed attempt at xbyte */ 
int xbyte(packed t word, int bytenum) 


return (word >> (bytenum << 3)) & OxFF; 
} 
A. 这 段 代码 错 在 哪里 ? 
B. 给 出 函数 的 正确 实现 ， 只 能 使 用 左右 移 位 和 一 个 减法 。 
“2.72 给 你 一 个 任务 ， 写 一 个 函数 ， 将 整数 val 复制 到 缓冲 区 buf 中 ,但 是 只 有 当 缓 冲 区 中 有 足够 可 用 
的 空间 时 ， 才 执行 复制 。 
你 写 的 代码 如 下 : 


/* Copy integer into buffer if space is available */ 
/* WARNING: The following code is buggy */ 
void copy_int(int val, void *buf, int maxbytes) 1 
if (maxbytes-sizeof (val) >= 0) 
memcpy (buf, (void *) &val, sizeof (val)); 


这 段 代 码 使 用 了 库 函 数 memcpy。 虽 然 在 这 里 用 这 个 消 数 有 点 刻意 ， 因 为 我 们 只 是 想 复制 一 个 
int， 但 是 它 说 明了 一 种 复制 较 大 数据 结构 的 常见 方法 。 
你 仔细 地 测试 了 这 段 代 码 后 发 现 ， 哪 怕 maxbytes 很 小 的 时 候 ， 它 也 能 把 值 复制 到 缓冲 区 中 。 
A. 解释 为 什么 代码 中 的 条 件 测试 总 是 成 功 。 提 示 : sizeof 运算 符 返 回 类 型 为 size 七 的 值 。 
B. 你 该 如 何 重 写 这 个 条 件 测试 ， 使 之 工作 正确 。 
2.73 写 出 具有 如 下 原型 的 函数 的 代码 : 


/* Addition that saturates to TMin or TMax */ 
int saturating_add(int x, int y); 
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+# 2. 75 


* 2.76 


** 2. /17 


* 2.78 


+ 2. 79 


** 2. 80 


** 2. 81 
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同 正常 的 补 码 加 法 溢出 的 方式 不 同 ， 当 正 汶 出 时 ， 饱 和 加 法 返回 TMaz， 负 洲 出 时 ， 返回 
TIMiz。 饱 和 运算 稼 常用 在 执行 数字 信号 处 理 的 程序 中 。 

你 的 函数 应 该 遵循 位 级 整数 编码 规则 。 
写 出 具有 如 下 原型 的 函数 的 代码 : 


/* Determine whether arguments can be subtracted without overflow */ 
int tsub_ok(int x, int y); 

如 果 计 算 x-y 不 溢出 ， 这 个 函数 就 返回 1。 
假设 我 们 想 要 计算 z， y 的 完整 的 2w 位 表示 ， 其 中 , 和 y 都 是 无 符号 数 ， 并 且 运 行 在 数据 类 型 
unsigned 是 w 位 的 机 器 上 。 乘 积 的 低 多 位 能 够 用 表达 式 x*y 计算 ， 所 以 ， 我 们 只 需要 一 个 具有 
下 列 原型 的 函数 : 


unsigned unsigned_high_prod(unsigned x, unsigned y); 


这 个 函数 计算 无 符号 变量 zx，y 的 高 也 位 。 
我 们 使 用 一 个 具有 下 面 原 型 的 库 函 数 : 
int Signed_high_prod(int x, int y); 


它 计算 在 x 和 yy 采用 补 码 形式 的 情况 下 ，xz*y 的 高 ww 位。 编写 代码 调用 这 个 过 程 ， 以 实现 用 无 符 
号 数 为 参数 的 图 数 。 验 证 你 的 解答 的 正确 性 。 

提示 : 看 看 等 式 (2. 18) 的 推导 中 ， 有 符号 乘积 x， y 和 无 符号 乘积 x '，y' 之 间 的 关系 。 
库 荫 数 calloc 有 如 下 声明 : 


void *calloc(size_t nmemb, size t size); 


根据 库 文档 :“ 消 数 calloc 为 一 个 数组 分 配 内 存 ， 该 数组 有 nmemb 个 元 素 ， 每 个 元 素 为 size 字 
节 。 内 存 设 置 为 0。 如 果 nmemb 或 size 为 0， 则 calloc 返回 NULL。” 

编写 calloc 的 实现 ， 通 过 调用 malloc 执行 分 配 ， 调 用 memset 将 内 存 设置 为 0。 你 的 代码 应 
该 没有 任何 由 算术 溢出 引起 的 漏洞 ， 且 无 论 数据 类 型 size t 用 多 少 位 表示 ， 代码 都 应 该 正常 
工作 sa 

作为 参考 ， 图 数 malloc 和 memset 声明 如 下 : 


void *malloc(size_t size); 
void *memset(void *s, int c, size_t n); 


假设 我 们 有 一 个 任务 : 生成 一 段 代 码 ， 将 整数 变量 x 乘 以 不 同 的 常数 因子 K。 为 了 提高 效率 ， 我 
们 想 只 使 用 十 、 一 和 < 运算 。 对 于 下 列 KK 的 值 ， 写 出 执行 乘法 运算 的 C 表达 式 ， 每 个 表达 式 中 
最 多 使 用 3 个 运算 。 

A. K=17 

B. K=—7 

C. K=60 

D. K=—112 

写 出 具有 如 下 原型 的 函数 的 代码 : 


/* Divide by power of 2. Assume 0 <= k < w-1 */ 
int divide_power2(int x, int k); 

该 函数 要 用 正确 的 舍 人 方式 计算 xz/2*， 并 且 应 该 遵循 位 级 整数 编码 规则 。 
写 出 男 数 mul3div4 的 代码 ， 对 于 整数 参数 x， 计 算 3*x/4， 但 是 要 遵循 位 级 整数 编码 规则 。 你 的 
代码 计算 3*x 也 会 产生 溢出 。 
写 出 函数 threefourths 的 代码 ， 对 于 整数 参数 x， 计 算 3/4x 的 值 ， 回 零售 人 。 它 不 会 溢出 。 郴 
数 应 该 遵循 位 级 整数 编码 规则 。 
编写 C 表达 式 产生 如 下 位 模式 ， 其 中 a 表示 符号 a 重复 kk 次。 假设 一 个 多 位 的 数据 类 型 。 代 码 可 
以 包含 对 参数 j] 和 的 引用 ,它们 分 别 表示 ; 和 & 的 值 ， 但 是 不 能 使 用 表示 w 的 参数 。 
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3 
BO VI 
我 们 在 一 个 int 类 型 值 为 32 位 的 机 器 上 运行 程序 。 这 些 值 以 补 码 形 式 表示 ， 而 且 它 们 都 是 算术 右 
移 的 。unsigned 类 型 的 值 也 是 32 位 的 。 
我 们 产生 随机 数 x 和 y， 并 且 把 它们 转换 成 无 符号 数 ， 显 示 如 下 : 


/* Create some arbitrary values */ 
int x = random(); 

int y = random(); 

/* Convert to unsigned */ 

unsigned ux = (unsigned) x; 
unsigned uy = (unsigned) y; 

对 于 下 列 每 个 C 表 达 式 ， 你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1， 那么 请 描述 其 中 的 
数学 原理 。 否 则 ， 列 举 出 一 个 使 它 为 0 的 参数 示例 。 
A. (x<y)==(-x>-y) 

B. ((x+y)<<4)+y-x==17*y+15*x 
C. x+ y+l== (x+y) 
D. (ux-uy)==- (unsigned) (y-x) 
EBE. (x2)<<2)<=x 


一 些 数字 的 二 进 制 表示 是 由 形 如 0.yy yy y y… 的 无 穷 串 组 成 的 ， 其 中 y 是 一 个 & 位 的 序列 。 例 
如 ， 志 的 二 进 制 表示 是 0.01010101…(y 一 01), 而 去 的 二 进 制 表示 是 0. 001100110011…(y 一 


0011) 。 
A. 设 Y= B2Ui(y)， 也 就 是 说 ， 这 个 数 具有 二 进 制 表示 y。 给 出 一 个 由 Y 和 上 组 成 的 公式 表示 这 
个 无 穷 串 的 值 。 
提示 : 请 考虑 将 二 进 制 小 数 点 右 移 位 的 结果 ， 
B. 对 于 下 列 的 y 值 ， 串 的 数值 是 多 少 ? 
(Ca)101 
(b)0110 
(c)010011 
填写 下 列 程序 的 返回 值 ， 这 个 程序 测试 它 的 第 一 个 参数 是 否 小 于 或 者 等 于 第 二 个 参数 。 假 定 函 数 
f2u 返回 一 个 无 符号 32 位 数字 ， 其 位 表示 与 它 的 浮 点 参数 相同 。 你 可 以 假设 两 个 参数 都 不 是 
NaN。 两 种 0， 十 0 和 一 0 被 认为 是 相等 的 。 


int float_le(float Xx，float y) 1 
unsigned ux = f2u(x); 
unsigned uy = f2u(y); 


/* Get the sign bits */ 
unsigned sx = ux >> 31; 
unsigned sy = uy >> 31; 


/* Give an expression using only ux, uy, sx, and sy */ 
return ; 
} 
给 定 一 个 浮 点 格式 ， 有 位 指数 和 7 位 小 数 ， 对 于 下 列 数 ， 写 出 阶 码 王 、 尾 数 M、 小 数 和 值 V 
的 公式 。 为 外 ， 请 描述 其 位 表示 。 
A. 数 7.0，。 
B. 能 够 被 准确 描述 的 最 大 奇 整数 。 
C. 最 小 的 规格 化 数 的 倒数 。 
与 Intel 兼容 的 处 理 咒 也 支持 “扩展 精度 ” 浮 点 形式 ， 这 种 格式 具有 80 位 字 长 ， 被 分 成 1 个 符号 
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位 、& 王 15 个 阶 码 位 、1 个 单独 的 整数 位 和 n=63 个 小 数位 。 整 数位 是 IEEE 浮 点 表示 中 隐 含 位 的 
显 式 副本 。 也 就 是 说 ， 对 于 规格 化 的 值 它 等 于 1， 对 于 非 规格 化 的 值 它 等 于 0。 填 写 下 表 ， 给 出 用 
这 种 格式 表示 的 一 些 “ 有 趣 的 ”数字 的 近似 值 。 


最 小 的 正 非 规格 化 数 
最 小 的 正规 格 化 数 
最 大 的 规格 化 数 


将 数据 类 型 声明 为 long double， 就 可 以 把 这 种 格式 用 于 为 与 Intel 兼容 的 机 器 编译 C 程序 。 

但 是 ， 它 会 强制 编译 器 以 传统 的 8087 浮 点 指令 为 基础 生成 代码 。 由 此 产生 的 程序 很 可 能 会 比 数据 
类 型 为 float 或 double 的 情况 慢 上 许多 。 
2008 版 IEEE 浮 点 标准 ， 即 IEEE 754-2008， 包 含 了 一 种 16 位 的 “ 半 精 度 ” 浮 点 格式 。 它 最 初 是 
由 计算 机 图 形 公司 设计 的 ， 其 存储 的 数据 所 需 的 动态 范围 要 高 于 16 位 整数 可 获得 的 范围 。 这 种 格 
式 具 有 1 个 符号 位 、5 个 阶 码 位 (& = 二 5) 和 10 个 小 数位 (n= 二 10)。 阶 码 偏 置 量 是 2 一 :一 1 王 15。 

对 于 每 个 给 定 的 数 ， 填 写 下 表 ， 其 中 ， 每 一 列 具 有 如 下 指示 说 明 : 

Hex: 描述 编码 形式 的 4 个 十 六 进 制 数字 。 


M: 尾数 的 值 。 这 应 该 是 一 个 形 如 zx 或 二 的 数 ， 其 中 zx 是 一 个 整数 ,而 y 是 2 的 整数 敌 。 例 


04 56- 

E: 阶 码 的 整数 值 。 

V: 所 表示 的 数字 值 。 使 用 x 或 者 xX2 表示 ， 其 中 x 和 xz 都 是 整数 。 
D: (可 能 近似 的 ) 数 值 ， 用 printf 的 格式 规范 sf 打印 。 


举 一 个 例子 ,为 了 表示 数 厂 ,我们 有 ;一 0，M 一 了 和 = 一 1。 因 此 这 个 数 的 阶 码 字段 为 


01110; (十 进 制 值 15 一 1 二 14)， 尾 数字 段 为 1100000000, ， 得 到 一 个 十 六 进 制 的 表示 3B00。 其 数值 
为 0. 875。 


标记 为 “一 ”的 条 目 不 用 填写 。 


最 小 的 六 2 的 值 





如 ; 似 、 


最 大 的 非 规 格 化 数 
十 六 进 制 表示 为 3BB0 的 数 


考虑 下 面 两 个 基于 IEEE 浮 点 格式 的 9 位 浮 点 表示 。 
1. 格式 A 

@ 有 一 个 符号 位 。 

@ 有 k= 二 5 个 阶 码 位 。 阶 码 偏 置 量 是 15。 

@ 有 7 一 3 个 小 数位 。 
2. 格式 B 

@ 有 一 个 符号 位 。 

@ 有 上 一 4 个 阶 码 位 。 阶 码 偏 置 量 是 7。 
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@ 有 7 一 4 个 小 数位 。 
下 面 给 出 了 一 些 格式 A 表示 的 位 模式 ， 你 的 任务 是 把 它们 转换 成 最 接近 的 格式 B 表示 的 值 。 
如 果 需 要 售 人 ， 你 要 问 十 se 伟人 。 另 外 ， 给 出 用 格式 A 和 格式 B 表示 的 位 模式 对 应 的 值 。 要 么 是 
整数 (例如 17)， 要 么 是 小 数 ( 例 如 17/64 或 17/2°)。 












格式 A 
YT WE TT WE 
WE EE | | 一 
1oolilli | | | 
-aaa | | 
-am | | 一 
一 aa 一 
我 们 在 一 个 int 类 型 为 32 位 补 码 表示 的 机 器 上 运行 程序 。float 类 型 的 值 使 用 32 位 IEEE 格式 ， 
而 double 类 型 的 值 使 用 64 位 IEEE 格式 。 

我 们 产生 随机 整数 x、y 和 z， 并 且 把 它们 转换 成 double 类 型 的 值 : 


/* Create Some arbitrary Values */ 
int x = Tandom() ; 

int y = random() ; 

int Z = random(); 

/* Convert to double */ 

double dx = (double) x; 

double dy = (double) y; 

double dz = (double) z; 


对 于 下 列 的 每 个 C 表达 式 ,你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1， 描述 其 中 的 数学 
原理 。 否 则 ,列举 出 使 它 为 0 的 参数 的 例子 。 请 注意 ， 不 能 使 用 IA32 机 器 运行 GCC 来 测试 你 的 
答案 ， 因 为 对 于 float 和 double， 它 使 用 的 都 是 80 位 的 扩展 精度 表示 。 

A (float) x== (float)adx 

dx-dy== (double) (x-y) 

(dx+dy) +dz==dx+ (dy+dz) 

(dx*dy) *dz==dx* (dy*dz) 

E. dx/dx= =dz/dz 

分 配给 你 一 个 任务 ， 编 写 一 个 C 函数 来 计算 2* 的 浮 点 表示 。 你 意识 到 完成 这 个 任务 的 最 好 方法 是 
直接 创建 结果 的 IEEE 单 精度 表示 。 当 zx 太 小 时 ， 你 的 程序 将 返回 0.0。 当 工 太 大 时 ， 它 会 返回 
十 ce。 填写 下 列 代码 的 空白 部 分 ， 以 计算 出 正确 的 结果 。 假 设 函 数 u2f 返回 的 浮 点 值 与 它 的 无 符 
号 参数 有 相同 的 位 表示 。 


float fpwr2(int x) 
{ 








号 人 


/* Result exponent and fraction */ 
unsigned exp, frac; 
unsigned 1 


种 (zs 所 
/* Too small. Return 0.0 */ 
exp = PR 
frac = > 

} else if (x < ) 1 
/* Denormalized result */ 
exp = _ = 
frac = 3 
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} else if (x < ) 
/* Normalized result, */ 
exp = - 
于 二 和信 mE -一 一 

} else { 
/* Too big. Return +00 */ 
exp = et 
frac = | 


} 


/* Pack exp and frac into 32 bits */ 
u = exp << 23 | frac; 

/* Return as float */ 

return u2f (u); 


} 


“2.91 大 约 公元 前 250 年 ， 希 腊 数 学 家 阿 基 米 德 证 明了 1 < 一 x<< 地 。 如 果 当 时 有 一 台 计 算 机 和 标准 库 
< math.h>， 他 就 能 够 确定 r 的 单 精 度 浮 点 近似 值 的 十 六 进 制 表示 为 0x40490FDB。 当 然 ， 所 有 的 
这 些 都 只 是 近似 值 ， 因 为 不 是 有 理 数 。 
A. 这 个 浮 点 值 表示 的 二 进 制 小 数 是 多 少 ? 


B. 学 的 二 进 制 小 数 表示 是 什么 ? 提示 : 参见 家 庭 作业 2. 83。 


C. 这 两 个 x 的 近似 值 从 哪 一 位 (相对 于 二 进 制 小 数 点 ) 开 始 不 同 的 ? 
位 级 浮 点 编码 规则 
在 接 下 来 的 题目 中 ， 你 所 写 的 代码 要 实现 浮 点 函数 在 浮 点 数 的 位 级 表示 上 直接 运算 。 你 的 代码 应 该 
完全 遵循 IEEE 浮 点 运算 的 规则 ， 包 括 当 需要 舍 人 和 人 时， 要 使 用 向 偶数 合 入 的 方式 。 
为 此 ， 我 们 把 数据 类 型 float-bits 等 价 于 unsigned: 


/* Access bit-level representation floating-point number */ 
typedef unsigned float_bits; 


你 的 代码 中 不 使 用 数据 类 型 float， 而 要 使 用 float bits。 你 可 以 使 用 数据 类 型 int 和 unsigned， 
包括 无 符号 和 整数 常数 和 运算 。 你 不 可 以 使 用 任何 联合 、 结 构 和 数组 。 更 重要 的 是 ， 你 不 能 使 用 任何 浮 
点 数据 类 型 、 运 算 或 者 常数 。 取 而 代 之 ， 你 的 代码 应 该 执行 实现 这 些 指定 的 浮 点 运算 的 位 操作 。 

下 面 的 函数 说 明了 对 这 些 规 则 的 使 用 。 对 于 参数 f， 如 果 了 是 非 规格 化 的 ， 该 函数 返回 士 0( 保 持 f 
的 符号 )， 否 则 ， 返 回 f。 


/* If f is denorm, return 0. Otherwise, return f */ 
float_bits float_denorm zero(float_bits f) { 
/* Decompose bit representation into parts */ 
unsigned sign = f>>31; 
unsigned exp = f>>23 & 0OXFF ; 
unsigned frac = ff & 0Ox7FFFFF ; 
if (exp == 0) { 
/* Denormalized. Set fraction to 0 */ 
frac = 0; 
} 
/* Reassemble bits */ 
return (sign << 31) | (exp << 23) | frac; 
} 


*» 2.92 遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 清 数 : 


/* Compute -f. If f is NaN, then return f. */ 
float_bits float_negate(float_bits f£); 


对 于 浮 点 数 f， 这 个 函数 计算 一 f。 如 果 f 是 NaeN， 你 的 函数 应 该 简单 地 返回 f。 
测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 结果 
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相 比 较 。 
遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 


/* Compute |f|. If f is NaN, then return f, */ 
float_bits float_absval(float_bits f); 


对 于 浮 点 数 f/， 这 个 函数 计算 | f| 。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 f。 

测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 2 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 
结果 相 比 较 。 
遵循 位 级 浮 点 编码 规则 ， 实 现 具 有 如 下 原型 的 呆 数 ; 


/* Compute 2*f. If f is NaN, then return f. */ 


float_bits float_twice(float_bits f); 
对 于 浮 点 数 f， 这 个 浮 数 计算 2.0。，f。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 f。 
测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 2 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 
结果 相 比 较 。 
遵循 位 级 浮 点 编码 规则 ， 实 现 具 有 如 下 原型 的 函数 : 


/* Compute 0.5*f. If f is NaN, then return f. */ 


float_bits float_half (float_bits f£); 
对 于 浮 点 数 +， 这 个 函数 计算 0.5，f。 如 果 ff 是 NaN， 你 的 函数 应 该 简单 地 返回 f。 
测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 
结果 相 比 较 。 
遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 
/* 
* Compute (int) f. 
* If conversion causes overflow or f is NaN, return Ox80000000 
Wa float_f2i(float_bits 工 ) ; 
对 于 浮 点 数 f/f， 这 个 防 数 计算 (int)f。 如 果 f 是 NaN， 你 的 函数 应 该 向 零 舍 入 。 如 果 f 不 能 
用 整数 表示 (例如 ， 超 出 表示 范围 ， 或 者 它 是 一 个 NaN)， 那 么 函数 应 该 返回 0x80000000。 
测试 你 的 函数 ， 对 参数 了 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 
结果 相 比 较 。 
遵循 位 级 浮 点 编码 规则 ， 实 现 具 有 如 下 原型 的 函数 : 
/* Compute (float) i */ 
float_bits float_i2f(int i); 
对 于 函数 i， 这 个 函数 计算 (float) i 的 位 级 表示 。 
测试 你 的 函数 ， 对 参数 了 可 以 取 的 所 有 2 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 
结果 相 比 较 。 


练习 题 答案 


人 


在 我 们 开始 查看 机 器 级 程序 的 时 候 ， 理 解 十 六 进 制 和 二 进 制 格式 之 间 的 关系 将 是 很 重要 的 。 虽 然 本 
书 中 介绍 了 完成 这 些 转 换 的 方法 ， 但 是 做 点 练习 能 够 让 你 更 加 熟练 。 
A. 将 0x39A7F8 转换 成 二 进 制 : 


十 六 进 制 3 9 A F 8 

二 进 制 0011 1001 1010 0111 1111 1000 
B. 将 二 进 制 1100100101111011 转换 成 十 六 进 制 : 

二 进 制 1100 1001 0111 1011 


十 六 进 制 & 9 7 B 
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C. 将 0xD5E4C 转换 成 二 进 制 ; 


十 六 进 制 D 5 E 4 和 
二 进 制 1101 0101 1110 0100 1100 
D. 将 二 进 制 1001101110011110110101 转换 成 十 六 进 制 : 
二 进 制 10 0110 1110 0111 1011 0101 
十 六 进 制 2 6 E | B 5 


这 个 问题 给 你 一 个 机 会 思考 2 的 寡 和 它们 的 十 六 进 制 表示 。 


| | A 
00 
| ll ua 
wew 和 ww low 
| | ua 

















这 个 问题 给 你 一 个 机 会 试 着 对 一 些小 的 数 在 十 六 进 制 和 十 进 制 表示 之 间 进 行 转换 。 对 于 较 大 的 数 ， 


使 用 计算 器 或 者 转换 程序 会 更 加 方便 和 可 靠 。 


vv un lu 
em | own lo 
wm | um lu 
ac9g | um lo 
TE 


当 开 始 调试 机 器 级 程序 时 ， 你 将 发 现在 许多 情况 中 ， 一 些 简单 的 十 六 进 制 运 算是 很 有 用 的 。 可 以 总 

是 把 数 转换 成 十 进 制 ， 完 成 运算 ， 再 把 它们 转换 回来 ， 但 是 能 够 直接 用 十 六 进 制 工作 更 加 有 效 ， 而 

且 能 够 提供 更 多 的 信息 。 

A. 0x503c+0x8=0x5044。8 加 上 十 六 进 制 c 得 到 4 并 且 进 位 1 。 

B. 0x503c-0x40=0x4ffc。 在 第 二 个 数位 ，3 减 去 4 要 从 第 三 位 借 1。 因 为 第 三 位 是 0， 所 以 我 们 必 
须 从 第 四 位 借 位 。 

C. 0x503c+64=0x507c。 十 进 制 64(2 ) 等 于 十 六 进 制 0x40。 

D. 0x50ea-0x503c=0xae。 十 六 进 制 数 a( 十 进 制 10) 减 去 十 六 进 制 数 c( 十 进 制 12)， 我 们 从 第 二 位 
借 16 ， 得 到 十 六 进 制 数 e( 十 进 制 数 14) 。 在 第 二 个 数位 ， 我 们 现在 用 十 六 进 制 d( 十 进 制 13) 减 
去 3， 得 到 十 六 进 制 a( 十 进 制 10) 。 

这 个 练习 测试 你 对 数据 的 字 节 表示 和 两 种 不 同 字 节 顺序 的 理解 。 



















小 端 法 : 21 大 端 法 : 87 
小 端 法 : 21 43 大 端 法 : 87 65 
小 端 法 ; 21 43 65 大 端 法 ; 87 65 43 


回想 一 下 ，show bytes 列举 了 一 系列 字 节 ， 从 低位 地 址 的 字 节 开始 ， 然 后 逐一 列 出 高 位 地 址 的 字 
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节 。 在 小 端 法 机 器 上 ， 它 将 按照 从 最 低 有 效 字 节 到 最 高 有 效 字 节 的 顺序 列 出 字 节 。 在 大 端 法 机 器 
上 ， 它 将 按照 从 最 高 有 效 字 节 到 最 低 有 效 字 节 的 顺序 列 出 字 节 。 

2.6 这 又 是 一 个 练习 从 十 六 进 制 到 二 进 制 转换 的 机 会 。 同 时 也 让 你 思考 整数 和 浮 点 表示 。 我 们 将 在 本 章 
后 面 更 加 详细 地 研究 这 些 表 示 。 
A. 利用 书 中 示例 的 符号 ， 我 们 将 两 个 串 写 成 : 


0 0 3 5 9 1 4 1 
O00000000001101011001000101000001 
来 率 来 来 来 炒 素 来 来 素来 素来 来 来 来 来 玫 炒 来 六 


4 A 5 6 4 5 0 4 
01001010010101100100010100000100 
B. 将 第 二 个 字 相 对 于 第 一 个 字 向 右 移动 2 位 ， 我 们 发 现 一 个 有 21 个 匹配 位 的 序列 。 
C. 我 们 发 现 除 了 最 高 有 效 位 1， 整 数 的 所 有 位 都 散在 浮 点 数 中 。 这 正好 也 是 书 中 示例 的 情况 。 另 
外 ， 浮 点 数 有 一 些 非 零 的 高 位 不 与 整数 中 的 高 位 相 匹 配 。 

2.7 它 打印 61 62 63 64 65 66。 回 想 一 下 ， 库 涌 数 strlen 不 计算 终止 的 空 字符 ， 所 以 show_ 
bytes 只 打印 到 字符 “f’。 

2.8 这 是 一 个 帮助 你 更 加 熟悉 布尔 运算 的 练习 。 









EE 
0 ll om aooo 
0 ll oo 
ee tooo ll oo oo 
ww to ll | 





2.9 这 个 问题 说 明了 怎样 用 布尔 代数 来 描述 和 解释 现实 世界 的 系统 。 我 们 能 够 看 到 这 个 颜色 代数 和 长 度 
为 3 的 位 向 量 上 的 布尔 代数 是 一 样 的 。 
A. 颜色 的 取 补 是 通过 对 R、G 和 B 的 值 取 补 得 到 的 。 由 此 ， 我 们 可 以 看 出 ， 白 色 是 黑色 的 补 ， 黄 
色 是 蓝 色 的 补 ， 红 紫色 是 绿色 的 补 ， 蓝 绿色 是 红色 的 补 。 
B. 我 们 基于 颜色 的 位 向 量 表示 来 进行 布尔 运算 。 据 此 ， 我 们 得 到 以 下 结果 : 


蓝 色 (001) | 绿色 (010) = 蓝 绿 色 (011) 
黄色 (110) &. 蓝 绿 色 (011) 三 绿色 (010) 
红色 (100) ~ 紫红 色 (101)== 蓝 色 (001) 


2. 10 ”这 个 程序 依赖 于 两 个 事实 ，EXCLUSIVE-OR 是 可 交换 的 和 可 结合 ， 以 及 对 于 任意 的 wc， 有 aa 一 0。 


Tr EE 
| 





某 种 情况 下 这 个 函数 会 失败 ， 参见 练习 题 2. 11。 
2. 11 这 个 题目 说 明了 我 们 的 原 地 交换 例 程 微妙 而 有 趣 的 特性 。 
A. first 和 last 的 值 都 为 & 所 以 我 们 试图 交换 正中 间 的 元 素 和 它 自己 。 
B. 在 这 种 情况 中 ，inplace swap 的 参数 x 和 y 都 指向 同一 个 位 置 。 当 计算 *x^*y 的 时 候 ， 我 们 
得 到 0。 然 后 将 0 作为 数组 正中 间 的 元 素 ， 而 后 面 的 步骤 一 直 都 把 这 个 元 素 设置 为 0。 我 们 可 
以 看 到 ， 练 习题 2. 10 的 推理 隐 含 地 假设 x 和 y 代表 不 同 的 位 置 。 
C. 将 reverse array 的 第 4 行 的 测试 简单 地 替换 成 first<last， 因 为 没有 必要 交换 正中 间 的 元 
素 和 它 自 己 。 
2. 12 这些 表 达 式 如 下 : 
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2. 13 


2. 14 


2. 16 
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A. x & OxFF 

B. x^~OxFF 

CG i | OxFF 

这 些 表达 式 是 在 执行 低级 位 运算 中 经 常 发 现 的 典型 类 型 。 表 达 式 ~0xFF 创建 一 个 掩 码 ， 该 掩 码 8 
个 最 低位 等 于 0， 而 其 余 的 位 为 1。 可 以 观察 到 ， 这 些 掩 码 的 产生 和 字 长 无 关 。 而 相 比 之 下 ， 表 达 
式 0xFFFFFF00 只 能 工作 在 32 位 的 机 器 上 。 

这 个 问题 帮助 你 思考 布尔 运算 和 程序 员 应 用 掩 码 运算 的 典型 方式 之 间 的 关系 。 代 码 如 下 : 

/* Declarations of functions implementing operations bis and bic */ 


int bis(int x, int m): 
int bic(int x, int m):; 


/* Compute xly using only calls to functions bis and bic */ 
int bool_or(int x, int y) 攻 

int result = bis(x,y); 

return result; 


} 


/* Compute xy using only calls to functions bis and bic */ 
int bool_xor(int x, int y) 荆 
int result = bis(bic(x,y), bic(y,x)); 
return result; 
bis 运算 等 价 于 布尔 OR 一 一 如 果 x 中 或 者 m 中 的 这 一 位 置 位 了 ， 那 么 z 中 的 这 一 位 就 置 位 。 
另 一 方面 ，bic (x, m) 等 价 于 x&~m; 我 们 想 实 现 只 有 当 x 对 应 的 位 为 1 且 m 对 应 的 位 为 0 时 ， 该 位 
等 于 1。 
由 此 ， 可 以 通过 对 bis 的 一 次 调用 来 实现 | 。 为 了 实现 ~， 我 们 利用 以 下 属性 
I^y= (zx&~y) | (~x&y) 
这 个 问题 突出 了 位 级 布尔 运算 和 C 语言 中 的 逻辑 运算 之 间 的 关系 。 常 见 的 编程 错误 是 在 想 用 逻辑 
运算 的 时 候 用 了 位 级 运算 ， 或 者 反 过 来 。 





这 个 表达 式 是 !(x ^ y)。 

也 就 是 ， 当 且 仅 当 x 的 每 一 位 和 y 相应 的 每 一 位 匹配 时 ，x ^ y 等 于 零 。 然 后， 我 们 利用 ! 来 
判定 一 个 字 是 否 包 含 任何 非 零 位 。 

没有 任何 实际 的 理由 要 去 使 用 这 个 表达 式 ， 因 为 可 以 简单 地 写成 x==y， 但 是 它 说 明了 位 级 运 


算 和 人 逻辑 运算 之 间 的 一 些 细微 差别 。 
这 个 练习 可 以 帮助 你 理解 各 种 移 位 运算 。 


(逻辑 ) (算术 ) 
十 六 进 制 ”二进制 二 进 制 ”十 六 进 制 | ”二进制 ”十 六 进 制 | ”二 进 制 十 六 进 制 


0xc3 [11000011] | [00011000] oxi8 | [00110000] ox30 | [11110000] 0xF0 
0x75 [01110101] | [10101000] oxa8 | [00011101] oxiD | [00011101] 0x1D 
Ox87 [10000111] | [00111000] 0x38 | [00100001] Ox21 | [11100001] 0xE1 
0x66 [01100110] | [00110000] [00011001] Ox19 | [00011001] Ox19 

















































2. dy 


Br 
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一 般 而 言 ， 研 究 字 长 非常 小 的 例子 是 理解 计算 机 运算 的 非常 好 的 方法 。 
无 符号 值 对 应 于 图 2-2 中 的 值 。 对 于 补 码 值 ， 十 六 进 制 数字 0 一 7 的 最 高 有 效 位 为 0， 得 到 非 
负 值 ， 然 而 十 六 进 制 数 字 8 一 下 的 最 高 有 效 位 为 1， 得 到 一 个 为 负 的 值 。 


B2U B2T 
A 一 进 制 


























OxE [1110] 23+22+2!=14 -23 十 22 + 21 = 
0x0 [0000] 0 0 

0x5 [0101] 22+20=5 22+20=5 
Ox8 [1000] 2 = —23=—8 






一 人 3 2 十 20 二 一 二 
-723+22+21+20=-1 


23+22+20=13 
23+22+2L1+20=15 


[1101] 
[1111] 


对 于 32 位 的 机 上 器， 由 8 个 十 六 进 制 数字 组 成 的 ， 且 开始 的 那个 数字 在 8~f 之 间 的 任何 值 ， 都 是 
一 个 负数 。 数 字 以 串 了 开头 是 很 普遍 的 事情 ， 因 为 负数 的 起 始 位 全 为 1。 不 过 ， 你 必须 看 仔细 了 。 
例如 ， 数 0x8048337 仅仅 有 7 个 数字 。 把 起 始 位 填 人 0， 从 而 得 到 0x08048337， 这 是 一 个 正 数 。 


4004d0: 48 81 ec e0 02 00 00 sub $0x2e0,%hrsp A. 736 
4004d7: 48 8b 44 24 a8 mov -Ox58(%rsp),%rax B. -88 
4004dc: 48 03 47 28 add 0x28(%rdi),%rax C. 40 
4004e0: 48 89 44 24 d0 mov  %rax,-0Ox30(%rsp) D; -48 
4004e5: 48 8b 44 24 78 mov Ox78(%rsp) ,%rax E, 120 
4004ea: 48 89 87 88 00 00 00 mov  ‘%rax,O0x88(%hrdi) F. 136 
4004f1: 48 8b 84 24 f8 01 00 mov Oxif8(%rsp) ,%rax G. 504 
4004f8: 00 

4004f9: 48 03 44 24 08 add 0x8(%rsp),%rax 

4004fe: 48 89 84 24 c0 00 00 mov  %rax,Oxc0O(%rsp) H. 192 
400505: 00 

400506: 48 8b 44 d4 b8 mov -0x48(%rsp,%rdx,8),%hrax I. -72 


从 数学 的 视角 来 看 ， 函 数 T2U 和 U2T 是 非常 奇特 的 。 理 解 它 们 的 行为 非常 重要 。 
我 们 根据 补 码 的 值 解答 这 个 问题 ， 重 新 排列 练习 题 2. 17 的 解答 中 的 行 ， 然 后 列 出 无 符号 值 作 
为 函数 应 用 的 结果 。 我 们 展示 十 六 进 制 值 ， 以 使 这 个 过 程 更 加 具体 。 





这 个 练习 题 测 试 你 对 等 式 (2. 5) 的 理解 。 

对 于 前 4 个 条 目 ，z 的 值 是 负 的 ， 并 且 T2U, (z) 王 十 24 。 对 于 剩 下 的 两 个 条 目 ，z 的 值 是 非 
负 的 ， 并 且 T2U (zx)=x。 
这 个 问题 加 强 你 对 补 码 和 无 符号 表示 之 间 关 系 的 理解 ， 以 及 对 C 语言 升级 规则 (promotion rule) 的 
影响 的 理解 。 回 想 一 下 ，TMinx 是 一 2 147 483 648， 并 且 将 它 强制 类 型 转换 为 无 符号 数 后 ， 变 成 
了 2147 483 648。 另 外 ， 如 果 有 任何 一 个 运算 数 是 无 符号 的 ,那么 在 比较 之 前 ， 另 一 个 运算 数 会 
被 强制 类 型 转换 为 无 符号 数 。 


-2147483647-1 == 2147483648U 
-2147483647-1 < 2147483647 


-2147483647-1U < 2147483647 
-2147483647-1< -2147483647 
-2147483647-1U < -2147483647 
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2. 24 


2 
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这 个 练习 很 具体 地 说 明了 符号 扩展 如 何 保持 一 个 补 码 表示 的 数值 。 


A. [1011]: 一 条 吊 史 证 2 = 82 = “= 
B. [11011]: 一 杂 示人 入 半 2 琳 好 二 一 16 十 8 十 和 二 1 三 一 和 
Cs L111011j 一 知 二 入 不 村井 外 不 和 一 台 十 1 二 8 十 2 二 一 5 


这 些 函 数 的 表达 式 是 和 常见 的 程序 “习惯 用 语 ”， 可 以 从 多 个 位 字段 打包 成 的 一 个 字 中 提取 值 。 它 们 
利用 不 同 移 位 运算 的 零 填 充 和 符号 扩展 属性 。 请 注意 强制 类 型 转换 和 移 位 运算 的 顺序 。 在 funl 
中 ， 移 位 是 在 无 符号 word 上 进行 的 ， 因 此 是 逻辑 移 位 。 在 fun2 中 ， 移 位 是 在 把 word 强制 类 型 
转换 为 int 之 后 进行 的 ， 因 此 是 算术 移 位 。 

A. 


0x00000076 0x00000076 0x00000076 


0x87654321 0x00000021 0x00000021 
Ox000000C9 Ox000000C9 OXxFFFFFFC9 
OxEDCBA987 0x00000087 OXFFFFFF87 





B. 函数 funl 从 参数 的 低 8 位 中 提取 一 个 值 ， 得 到 范围 0 一 255 的 一 个 整数 。 函 数 fun2 也 从 这 个 
参数 的 低 8 位 中 提取 一 个 值 ， 但 是 它 还 要 执行 符号 扩展 。 结 果 将 是 介 于 一 128 一 127 的 一 个 数 。 
对 于 无 符号 数 来 说 ， 截 断 的 影响 是 相当 直观 的 ， 但 是 对 于 补 码 数 却 不 是 。 这 个 练习 让 你 使 用 非常 

小 的 字 长 来 研究 它 的 属性 。 


0 
2 
9 
B 
F 





正如 等 式 (2.9) 所 描述 的 ， 这 种 截断 无 符号 数值 的 结果 就 是 发 现 它们 模 8 的 余数 。 截 断 有 符号 
数 的 结果 要 更 复杂 一 些 。 根 据 等 式 (2. 10)， 我们 首先 计算 这 个 参数 模 8 后 的 余数 。 对 于 参数 0 一 7， 
将 得 出 值 0 一 7， 对 于 参数 一 8 一 一 1 也 是 一 样 。 然 后 我 们 对 这 些 余数 应 用 函数 U2T: ， 得 出 两 个 0 一 
3 和 一 4 一 1 序列 的 反复 。 
设计 这 个 问题 是 要 说 明 从 有 符号 数 到 无 符号 数 的 隐 式 强制 类 型 转换 很 容易 引起 错误 。 将 参数 
length 作为 一 个 无 符号 数 来 传递 看 上 去 是 件 相当 自然 的 事情 ， 因 为 没有 人 会 想到 使 用 一 个 长 度 为 
负数 的 值 。 停 止 条 件 i<=length-1 看 上 去 也 很 自然 。 但 是 把 这 两 点 组 合 到 一 起 ， 将 产生 意 想 不 到 
的 结果 ! 

因为 参数 length 是 无 符号 的 ， 计 算 0 一 1 将 使 用 无 符号 运算 ， 这 等 价 于 模 数 加 法 。 结 果 得 到 
UMaz 。 三 比较 同样 使 用 无 符号 数 比 较 ， 而 因为 任何 数 都 是 小 于 或 者 等 于 UMazx 的 ， 所 以 这 个 比 
较 总 是 为 真 ! 因此 ， 代 码 将 试图 访问 数组 a 的 非法 元 素 。 

有 两 种 方法 可 以 改正 这 段 代 码 ， 其 一 是 将 length 声明 为 int 类 型 ， 其 二 是 将 for 循环 的 测 
试 条 件 改 为 i<length。 
这 个 例子 说 明了 无 符号 运算 的 一 个 细微 的 特性 ， 同 时 也 是 我 们 执行 无 符号 运算 时 不 会 意识 到 的 属 
性 。 这 会 导致 一 些 非 常 环 手 的 错误 。 
A. 在 什么 情况 下 ， 这 个 函数 会 产生 不 正确 的 结果 ? 当 s 比 t 短 的 时 候 ， 该 函数 会 不 正确 地 返回 1。 
B. 解释 为 什么 会 出 现 这 样 不 正确 的 结果 。 由 于 strlen 被 定义 为 产生 一 个 无 符号 的 结果 ， 差 和 上 比 

较 都 采用 无 符号 运算 来 计算 。 当 s 比 t 短 的 时 候 ，strlen(s)-strlen(t) 的 差 会 为 负 ， 但 是 变 

成 了 一 个 很 大 的 无 符号 数 ， 且 大 于 0。 


2 2 


2. 29 


2 


2. 32 
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C. 说 明 如 何 修改 这 段 代码 好 让 它 能 可 靠 地 工作 。 将 测试 语句 改 成 : 


return strlen(s) > strlen(t); 


这 个 函数 是 对 确定 无 符号 加 法 是 否 淤 出 的 规则 的 直接 实现 。 


/* Determine whether arguments can be added without overflow */ 
int uadd_ok(unsigned x, unsigned y) 1 

unsigned sum = x+y; 

return sum >= x; 


} 


本 题 是 对 算术 模 16 的 简单 示范 。 最 容易 的 解决 方法 是 将 十 六 进 制 模式 转换 成 它 的 无 符号 十 进 制 
值 。 对 于 非 零 的 工 值 ， 我 们 必须 有 (一 yz) 十 z 一 16。 然 后 ,我们 就 可 以 将 取 补 后 的 值 转换 回 十 六 
进 制 。 





' 
15 


本 题 的 目的 是 确保 你 理解 了 补 码 加 法 。 











-12 = 于 -对 5 
[10100] | [10001] [100101] [00101] 
-8 -8 -16 -16 2 
om | om | um | um | 7 
i = 
omg | pon | uam | nm | 7 
al| wm | mm | mm | 
12 16 -16 
am | oo | om | om | 7 


这 个 函数 是 对 确定 补 码 加 法 是 否 滋 出 的 规则 的 直接 实现 。 


/* Determine whether arguments can be added without overflow */ 
int tadd.ok(int #, int ‘y) 于 

int sum = x+y; 

int neg_over = XxX < 0O&y< 0 && sum >= 0; 

int pos_over =X >= 0 &&y >=0 && sum < 0; 

return Ineg_over && !Ipos_over; 


} 
通过 学 习 2. 3.2 节 ， 你 的 同事 可 能 已 经 学 到 补 码 加 会 形成 一 个 阿 贝 尔 群 ， 因 此 表达 式 (x+y) -x 求 
值得 到 y， 无 论 加 法 是 否 溢 出， 而 (x+y) -y 总 是 会 求 值得 到 x 
这 个 函数 会 给 出 正确 的 值 ， 除 了 当 y 等 于 TMin 时 。 在 这 个 情况 下 ， 我们 有 -y 也 等 于 TMin， 因 
此 函数 tadd ok 会 认为 只 要 x 是 负数 时 ， 就 会 游 出， 而 x 为 非 负数 时 ， 不 会 溢出 。 实 际 上 ， 情 况 
恰 怡 相反 : 当 x 为 负数 时 ，tsub ok(x，TMin) 为 1; 而 当 x 为 非 负 时 ， 它 为 0。 

这 个 练习 说 明 ， 在 函数 的 任何 测试 过 程 中 ，TMin 都 应 该 作为 一 种 测试 情况 。 
本 题 使 用 非常 小 的 字 长 来 帮助 你 理解 补 码 的 非 。 

对 于 多 二 4， 我 们 有 TMin 三 一 8。 因 此 一 8 是 它 自己 的 加 法 逆 元 ， 而 其 他 数值 是 通过 整数 非 
来 取 非 的 。 
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对 于 无 符号 数 的 非 ， 位 的 模式 是 相同 的 。 
2.34 本 题目 是 确保 你 理解 了 补 码 乘法 。 


无 符号 数 4 [100] 5 [101] 20 [010100] 4 [100] 
补 码 -4 [100] | -3 [101] 12 [001100] | -4 [100] 
无 符号 数 2 [010] 7 [111] 14 [001110] 6 [110] 
补 码 2 [010] | =1 0 | -2 [111110] | -2 [110] 
[110] 6 [110] 36 [100100] 4 [100] 

[110] | -2 [110] 4 [000100] | -4 [100] 










2.35 ”对 所 有 可 能 的 x 和 yy 测试 一 遍 这 个 函数 是 不 现实 的 。 当 数据 类 型 int 为 32 位 时 ， 即 使 你 每 秒 运行 
一 百 亿 个 测试 ， 也 需要 58 年 才能 测试 完 所 有 的 组 合 。 另 一 方面 ， 把 函数 中 的 数据 类 型 改 成 short 
或 者 char， 然 后 再 穷尽 测试 ， 倒 是 测试 代码 的 一 种 可 行 的 方法 。 
我 们 提出 以 下 论据 ， 这 是 一 个 更 理论 的 方法 : 
1) 我 们 知道 x。y 可 以 写成 一 个 2w 位 的 补 码 数字 。 用 x 来 表示 低 妆 位 表示 的 无 符号 数 ，v 表 示 高 
ww 位 的 补 码 数 字 。 那 么 ， 根 据 公 式 (2. 3)， 我 们 可 以 得 到 工 。 y 一 z2” 十 zx。 

我 们 还 知道 wx 一 T2U。(p)， 因 为 它们 是 从 同一 个 位 模式 得 出 来 的 无 符号 和 补 码 数字 、 因 此 
根据 等 式 (2. 6)， 我 们 有 zx 一 如 十 如 -12"， 这 里 p_i 是 的 最 高 有 效 位 。 设 1 二 v 十 ps-1， 我 们 有 
4 

当 1 二 0 时 ， 有 x，y 二 pp; 乘法 不 会 溢出 。 当 t 关 0 时， 有 x，y 了 关 p; 乘法 不 会 溢出 。 

2) 根据 整数 除法 的 定义 ， 用 非 零 数 zx 除 以 户 会 得 到 商 g 和 余数 r， 即 p= 二 x*g+r, 且 |r| 二 |z|。 
(这 里 用 的 是 绝对 值 ， 因 为 x 和 7 的 符号 可 能 不 一 致 。 例 如 ， 一 7 除 以 2 得 到 商 一 3 和 余数 一 1,) 
3) 假设 g==y。 那 么 有 z。3y 一 z。y?y 十 r 十 ti2" 。 在 此 ， 我 们 可 以 得 到 r 十 t2*==0。 但 是 |r| 二 |z| 牵 

2"， 所 以 只 有 当 本 0 时， 这 个 等 式 才 会 成 立 ， 此 时 > 一 0。 

假设 r 一 本 0。 那 么 我 们 有 x， y= 二 x， gq， 隐 含有 y 一 9。 

当 x 二 0 时 ， 乘 法 不 溢出 ， 所 以 我 们 的 代码 提供 了 一 种 可 靠 的 方法 来 测试 补 码 乘 法 是 否 会 导致 溢出 。 
2.36 如 果 用 64 位 表示 ， 乘 法 就 不 会 有 溢出 。 然 后 我 们 来 验证 将 乘积 强制 类 型 转换 为 32 位 是 否 会 改变 
它 的 值 : 





1 /* Determine whether the arguments can be multiplied 
2 without overflow */ 

3 int tmult_ok(int x, int y) 1{ 

4 /* Compute product without overflow */ 

5 int64_t pll = (int64_t) x*y; 

6 /* See if casting to int preserves value */ 

7 return pll == (int) pll; 

8 } 


注意 ， 第 5 行 右边 的 强制 类 型 转换 至 关 重 要 。 如 果 我 们 将 这 一 行 写 成 
int64_t pll = x*y; 


就 会 用 32 位 值 来 计算 乘积 (可 能 会 溢出 )， 然后 再 符号 扩展 到 64 位 。 
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2.37 A. 这 个 改动 完全 没有 帮助 。 虽 然 asize 的 计算 会 更 准确 ， 但 是 调用 malloc 会 导致 这 个 值 被 转换 
成 一 个 32 位 无 符号 数字 ， 因 而 还 是 会 出 现 同样 的 溢出 条 件 。 
B. malloc 使 用 一 个 32 位 无 符号 数 作为 参数 ， 它 不 可 能 分 配 一 个 大 于 2” 个 字 节 的 块 ， 因 此 ， 没 有 
必要 试图 去 分 配 或 者 复制 这 样 大 的 一 块 内 存 。 取 而 代 之 ， 函 数 应 该 放弃 ， 返回 NULL， 用 下 面 
的 代码 取代 对 malloc 原始 的 调用 (第 9 行 ): 


uint64.t required_size = ele_cnt * (uint64 t) ele_size; 
size_t request_size = (size_t) required_size; 
if (required_size != request_size) 
/* Overflow must have occurred. Abort operation */ 
return NULL ; 
void *result = malloc(request_size) ; 
if (result == NULL) 
/* malloc failed */ 
return NULL ; 


2.38 在 第 3 章 中 ， 我 们 将 看 到 很 多 实际 的 LEA 指令 的 例子 。 用 这 个 指令 来 支持 指针 运算 ， 但 是 C 语言 
编译 器 经 常用 它 来 执行 小 常数 乘法 。 
对 于 每 个 的 值 ， 我 们 可 以 计算 出 2 的 倍数 : 2( 当 5 为 0 时 ) 和 2 十 1( 当 5 为 a 时 )。 因 此 我 
们 能 够 计算 出 倍数 为 1，2，3，4，5，8 和 9 的 值 。 
2. 39 ”这 个 表达 式 就 变 成 了 - (x<<m) 。 要 看 清 这 一 点 ， 设 字 长 为 w，n 二 w 一 1。 形 式 B 说 我 们 要 计算 (x<<w)- 
(x<<m)， 但 是 将 x 向 左 移动 ww 位 会 得 到 值 0。 
2.40 本 题 要 求 你 使 用 讲 过 的 优化 技术 ， 同 时 也 需要 自己 的 一 点 儿 创造 力 。 


(X<<2) + (Xx<<1) 


(X<<5) -XX 
(Xx<<1) - (x<<3) 





(X<<6) - (Xx<<3) -XxX 


可 以 观察 到 ， 第 四 种 情况 使 用 了 形式 B 的 改进 版 本 。 我 们 可 以 将 位 模式 L110111 ] 看 作 6 个 连 
续 的 1 中 间 有 一 个 0， 因 而 我 们 对 形式 B 应 用 这 个 原则 , 但 是 需要 在 后 来 把 中 间 0 位 对 应 的 项 
减 掉 。 
2.41 假设 加 法 和 减法 有 同样 的 性 能 ， 那 么 原则 就 是 当 n 二 m 时 ， 选 择 形 式 A， 当 n= 二 xm 十 1 时 ， 随 便 选 
哪 种 ， 而 当 n 这 m 十 1 时 ， 选 择 形式 B。 
这 个 原则 的 证 明 如 下 。 首 先 假设 mm 二 >0。 当 nn 二 m 时 ， 形式 A 只 需要 1 个 移 位 ， 而 形式 B 需 要 
2 个 移 位 和 1 个 减法 。 当 nn 二 m 十 1 时 ， 这 两 种 形式 都 需要 2 个 移 位 和 1 个 加 法 或 者 1 个 减法 。 当 
?全 mm 十 1 时 ， 形式 B 只 需要 2 个 移 位 和 1 个 减法 ， 而 形式 A 需要 nn 一 m 十 1 之 2 个 移 位 和 nn 一 m 过 1 
个 加 法 。 对 于 m= 二 0 的 情况 ， 对 于 形式 A 和 B 都 要 少 1 个 移 位 ， 所 以 在 两 者 中 选择 时 ， 还 是 适用 
同样 的 原则 。 
2.42 这 里 唯一 的 挑战 是 不 使 用 任何 测试 或 条 件 运算 来 计算 偏 置 量 。 我 们 利用 了 一 个 诀窍， 表达 式 x>> 
31 产生 一 个 字 ， 如 果 x 是 负数 ， 这 个 字 为 全 1， 否 则 为 全 0。 通 过 掩 码 屏 蔽 掉 适 当 的 位 ， 我 们 就 得 
到 期 望 的 偏 置 值 。 


int divi6(int x) { 
/* Compute bias to be either 0 (x >= 0) or 15 (x < 0) */ 
int bias = (x >> 31) & OxF; 
return (x + bias) >> 4; 


} 
2. 43 我 们 发 现 当 人 们 直接 与 汇编 代码 打交道 时 是 有 困难 的 。 但 当 把 它 放 人 optarith 所 示 的 形式 中 时 ， 
问题 就 变 得 更 加 清晰 明了 。 
我 们 可 以 看 到 M 是 31; 是 用 (x<<5) -x 来 计算 x*M。 
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2. 44 


2. 45 


2. 46 
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我 们 可 以 看 到 N 是 8; 当 Y 是 负数 时 ， 加 上 偏 置 量 7， 并 且 右 移 3 位 。 
这 些 “C 的 谜 题 ” 清 楚 地 告诉 程序 员 必 须 理解 计算 机 运算 的 属性 。 
A. (x > 0) |11 ((x-1) < 0) 
假 。 设 x 等 于 一 2 147 483 648(TMinss)。 那 么 ， 我 们 有 x-1 等 于 2147483647(TMazaz ) 。 
B. (x l= 271| (x<< 292 0 
真 。 如 果 (x & 7) != 7 这 个 表达 式 的 值 为 0， 那 么 我 们 必须 有 位 zx; 等 于 1。 当 左 移 29 位 时 ， 这 
个 位 将 变 成 符号 位 。 
(as 汪 实 议 } 守 = i 
假 。 当 x 为 65 535(0xFFFF) 时 ，x * x 为 一 131 071(0xFFFE0001)。 
D. x<0|1| -x<=0 
真 。 如 果 x 是非 负数 ， 则 -x 是 非 正 的 。 
E. x> 0 || =x = 0 
假 。 设 x 为 一 2 147 483 648(TMinsz)。 那 么 x 和 -x 都 为 负数 。 


F. x+y == Uytux 
真 。 补 码 和 无 符号 乘法 有 相同 的 位 级 行为 ， 而 且 它 们 是 可 交换 的 。 
G,. Xx*~y+ Uy*ux == -x 


真 。~y 等 于 -y-1。uy*ux 等 于 x*y。 因 此 ， 等 式 左边 等 价 于 X*—Yy-X+X*y, 
理解 二 进 制 小 数 表 示 是 理解 浮 点 编码 的 一 个 重要 步骤 。 这 个 练习 让 你 试验 一 些 简 单 的 例子 。 


小 数值 。 | = 进 制 表示 | 十进制 表示 
0.001 
0.11 
1.1001 
10.1011 
1.001 
.101.111 
11.0011 





有 

8 

3 

4 
25 
16 
43 
16 
2 

8 

47 
于 
i] 
16 


考虑 二 进 制 小 数 表示 的 一 个 简单 方法 是 将 一 个 数 表示 为 形 如 去 的 小 数 。 我 们 将 这 个 形式 表示 
为 二 进 制 的 过 程 是 ， 使 用 z 的 二 进 制 表示 ， 并 把 二 进 制 小 数 点 插入 从 右边 算 起 的 第 个 位 置 。 举 
一 个 例子 ， 对 于 窒 ， 我 们 有 251, 一 11001; 。 然 后 我 们 把 二 进 制 小 数 点 放 在 从 右 算 起 的 第 4 位 ， 得 


到 1. 1001， 。 
在 大 多 数 情 况 中 ， 浮 点 数 的 有 限 精 度 不 是 主要 的 问题 ， 因 为 计算 的 相对 误差 仍然 是 相当 低 的 。 然 
而 在 这 个 例子 中 ， 系 统 对 于 绝对 误差 是 很 敏感 的 。 
A. 我 们 可 以 看 到 0. 1 一 z 的 二 进 制 表示 为 : 
0. 000000000000000000000001100L1100]…， 


、 cs -站 ， ND -2 R 
B. 把 这 个 表示 与 76 的 二 进 制 表示 进行 比较 ,我 们 可 以 看 到 这 就 是 2-”X 1， 也 就 是 大 约 9. 54X 
Le, 
C. 9.54X10 * X100X60X60X10x0. 343 秒 。 
D. 0. 343 久 2000<z*687 米 。 


研究 字 长 非常 小 的 浮 点 表示 能 够 帮助 澄清 IEEE 浮 点 是 怎样 工作 的 。 要 特别 注意 非 规格 化 数 和 规 
格 化 数 之 间 的 过 渡 。 
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2.48 十 六 进 制 0x359141 等 价 于 二 进 制 [1101011001000101000001 1]。 将 之 右 移 21 位 得 到 
1. 101011001000101000001, X23。 除去 起 始 位 的 1 并 增加 2 个 0 形成 小 数字 段 ， 从 而 得 到 
[10101100100010100000100]。 阶 码 是 通过 21 加 上 偏 置 量 127 形成 的 ， 得 到 148 (二 进 制 
[10010100])。 我 们 把 它 和 符号 字段 0 联合 起 来 ， 得 到 二 进 制 表示 

[01001010010101100100010100000100] 
我 们 看 到 两 种 表示 中 匹配 的 位 对 应 于 整数 的 低位 到 最 高 有 效 位 等 于 1， 匹 配 小 数 的 高 21 位 : 


0 0 3 5 9 1 4 1 
00000000001101011001000101000001 
素来 来 求 来 来 来 来 来 来 来 冰冰 来 来 束 来 来 来 来 六 


4 A 5 6 4 5 0 4 
Oi001010010101100100010100000100 
2.49 ”这 个 练习 帮助 你 思考 什么 数 不 能 用 浮 点 准确 表示 。 
A. 这 个 数 的 二 进 制 表示 是 : 1 后 面 跟着 个 0， 其 后 再 跟 1， 得 到 值 是 2””' 十 1。 
B. 当 ”= 一 23 时 ， 值 是 2* 十 1=16 777 217。 
2.50 ”人 工会 人 帮助 你 加 强 二 进 制 数 舍 人 到 偶数 的 概念 。 


原始 值 


24 
8 
了 
38 





2.51 A. 从 1/10 的 无 穷 序 列 中 我 们 可 以 看 到 ， 舍 人 位 置 右边 2 位 都 是 1， 所 以 对 1/10 更 好 一 点 儿 的 近 
似 值 应 该 是 对 x 加 1， 得 到 x'==0.00011001100110011001101, ， 它 比 0. 1 大 一 点 儿 。 
B. 我 们 可 以 看 到 zx' 一 0.1 的 二 进 制 表 示 为 : 
0. 0000000000000000000[1100] 
将 这 个 值 与 1/10 的 二 进 制 表示 做 比较 ， 我们 可 以 看 到 它 等 于 2 “X1/10， 大约 等 于 2. 38X 
j= , 
C. 2.38X10-*X100X60X60X10=*0.086 秒 ， 爱 国 者 导弹 系统 中 的 误差 是 它 的 4 倍 。 
D. 0.086X2000=<*171 米 。 
2.52 这 个 题目 考查 了 很 多 关于 浮 点 表示 的 概念 ， 包 括 规格 化 和 非 规格 化 的 值 的 编码 ， 以 及 舍 人 。 
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看 


011 0000 0111 O000 
101 1110 1001 111 
010 1001 0110 100 
4 LL 1011 000 
000 0001 0001 000 


向 下 舍 人 人 
同上 舍 和 信 
非 规 格 化 一 规格 化 





1 
15 
2 
3 
4 
16 
1 
64 


2. 53 一 般 来 说 ,使 用 库 宏 (library macro) 会 比 你 自己 写 的 代码 更 好 一 些 。 不 过 ， 这 段 代码 似乎 可 以 在 多 
种 机 器 上 工作 。 
假设 值 1e400 溢出 为 无 穷 。 
#define POS_INFINITY ie400 
#define NEG_INFINITY (-POS_INFINITY) 
#define NEG_ZERO (~-1.0/POS_INFINITY) 
2.54 这 个 练习 可 以 帮助 你 从 程序 员 的 角度 来 提高 研究 浮 点 运算 的 能 力 。 确 信 自 己 理 解 下 面 每 一 个 答案 。 
A. x== (int) (double) x 
真 ， 因 为 double 类 型 比 int 类 型 具有 更 大 的 精度 和 范围 。 


B. x== (int) (double) x 
假 ， 例 如 当 x 为 TMaz 时 。 
C, d== (double) (float) d 
假 ， 例 如 当 a 为 le40 时 ,我们 在 右边 得 到 十 ~。 
D, f== (float) (double) f 
真 ， 因 为 double 类 型 比 float 类 型 具有 更 大 的 精度 和 范围 。 
bE, ff == -(-£) 


真 ， 因 为 浮 点 数 取 非 就 是 简单 地 对 它 的 符号 位 取 反 。 
F, 1.0/2== 1/2.0 
真 ， 在 执行 除法 之 前 ， 分 子 和 分 母 都 会 被 转换 成 浮 点 表示 。 
G. d*d>=0.0 
真 ， 虽 然 它 可 能 会 溢出 到 十 =e。 
H. (f+d)-f == 
假 ， 例 如 当 f£ 是 1.0e20 而 ad 是 1.0 时 ， 表达 式 ftd 会 舍 入 到 1.0e20， 因 此 左边 的 表达 式 求 值 
得 到 0.0， 而 右边 是 1. 0。 
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程序 的 机 规 级 表示 


计算 机 执行 机 器 代码 ， 用 字 节 序列 编码 低级 的 操作 ， 包 括 处 理 数 据 、 管 理 内 存 、 读 与 
存储 设备 上 的 数据 ， 以 及 利用 网 络 通信 。 编 译 器 基于 编程 语言 的 规则 、 目 标 机 器 的 指令 集 
和 操作 系统 遵循 的 惯例 ， 经 过 一 系列 的 阶段 生成 机 颖 代码 。GCC C 语言 编译 器 以 汇编 代码 
的 形式 产生 输出 ， 汇 编 代码 是 机 器 代码 的 文本 表示 ， 给 出 程序 中 的 每 一 条 指令 。 然 后 
GCC 调用 汇编 器 和 链接 器 ， 根 据 汇 编 代 码 生成 可 执行 的 机 器 代码 。 在 本 章 中 ， 我 们 会 近 
距离 地 观察 机 器 代码 ， 以 及 人 类 可 庶 的 表示 汇编 代码 。 

当 我 们 用 高 级 语言 编程 的 时 候 ( 例 如 C 语言 ，Java 语言 更 是 如 此 )， 机 器 屏蔽 了 程序 的 细 
节 ， 即 机 器 级 的 实现 。 与 此 相反 ， 当 用 汇编 代码 编程 的 时 候 ( 就 像 早 期 的 计算 )， 程 序 员 必须 
指定 程序 用 来 执行 计算 的 低级 指令 。 高 级 语言 提供 的 抽象 级 别 比较 高 ， 大 多 数 时 候 ， 在 这 种 
抽象 级 别 上 工作 效率 会 更 高 ， 也 更 可 靠 。 编 译 器 提供 的 类 型 检查 能 帮助 我 们 发 现 许多 程序 错 
误 ， 并 能 够 保证 按照 一 致 的 方式 来 引用 和 处 理 数据 。 通 常情 况 下 ， 使 用 现代 的 优化 编译 器 产 
生 的 代码 至 少 与 一 个 熟练 的 汇编 语言 程序 员 手 工 编写 的 代码 一 样 有 效 。 最 大 的 优点 是 ， 用 高 级 
语言 编写 的 程序 可 以 在 很 多 不 同 的 机 器 上 编译 和 执行 ， 而 汇编 代码 则 是 与 特定 机 融 密 切 相 关 的 。 

那么 为 什么 我 们 还 要 花 时 间 学 习 机 器 代码 呢 ? 即使 编译 器 承担 了 生成 汇编 代码 的 大 部 
分 工作 ， 对 于 严谨 的 程序 员 来 说 ， 能 够 阅读 和 理解 汇编 代码 仍 是 一 项 很 重要 的 技能 。 以 适 
当 的 命令 行 选 项 调用 编译 器 ， 编 译 器 就 会 产生 一 个 以 汇编 代码 形式 表示 的 输出 文件 。 通 过 
阅读 这 些 汇 编 代 码 ， 我 们 能 够 理解 编译 器 的 优化 能 力 ， 并 分 析 代 码 中 隐 含 的 低 效 率 。 就 像 
我 们 将 在 第 5 章 中 体会 到 的 那样 ， 试 图 最 大 化 一 段 关 键 代 码 性 能 的 程序 员 ， 通 常会 尝试 源 
代码 的 各 种 形式 ， 每 次 编译 并 检查 产生 的 汇编 代码 ， 从 而 了 解 程序 将 要 运行 的 效率 如 何 。 
此 外 ， 也 有 些 时 候 ， 高 级 语言 提供 的 抽象 层 会 隐藏 我 们 想 要 了 解 的 程序 的 运行 时 行为 。 例 
如 ， 第 12 章 会 讲 到 ， 用 线程 包 写 并 发 程序 时 ， 了 解 不 同 的 线程 是 如 何 共 享 程序 数据 或 保持 
数据 私有 的 ， 以 及 准确 知道 如 何在 哪里 访问 共享 数据 ， 都 是 很 重要 的 。 这 些 信 息 在 机 器 代码 
级 是 可 见 的 。 另 外 再 举 一 个 例子 ， 程 序 遭 受 攻 击 ( 使 得 恶意 软件 侵扰 系统 ) 的 许多 方式 中 ， 都 
涉及 程序 存储 运行 时 控制 信息 的 方式 的 细节 。 许 多 攻击 利用 了 系统 程序 中 的 漏洞 重 写 信息 ， 
从 而 获得 了 系统 的 控制 权 。 了 解 这 些 漏洞 是 如 何 出 现 的 ， 以 及 如 何 防 御 它 们 ， 需 要 具备 程序 
机 器 级 表示 的 知识 。 程 序 员 学 习 汇 编 代码 的 需求 随 着 时 间 的 推移 也 发 生 了 变化 ， 开 始 时 要 求 
程序 员 能 直接 用 汇编 语言 编写 程序 ， 现 在 则 要 求 他 们 能 够 阅读 和 理解 编译 器 产生 的 代码 。 

在 本 章 中 ， 我 们 将 详细 学 习 一 种 特别 的 汇编 语言 ， 了 解 如 何 将 C 程序 编译 成 这 种 形式 
的 机 器 代码 。 阅 读 编译 器 产生 的 汇编 代码 ， 需 要 具备 的 技能 不 同 于 手工 编写 汇编 代码 。 我 
们 必须 了 解 典 型 的 编译 器 在 将 C 程序 结构 变换 成 机 器 代码 时 所 做 的 转换 。 相 对 于 C 代码 表 
示 的 计算 操作 ， 优 化 编译 器 能 够 重新 排列 执行 顺序 ， 消 除 不 必要 的 计算 ， 用 快速 操作 替换 
慢 速 操作 ， 甚 至 将 递归 计算 变换 成 迭代 计算 。 源 代码 与 对 应 的 汇编 代码 的 关系 通常 不 太 容 易 
理解 一 一 就 像 要 拼 出 的 拼图 与 盒子 上 图 片 的 设计 有 点 不 太一 样 。 这 是 一 种 北向 工程 (reverse 
engineering) -一 一 通过 研究 系统 和 逆向 工作 ， 来 试图 了 解 系统 的 创建 过 程 。 在 这 里 ， 系 统 
是 一 个 机 器 产生 的 汇编 语言 程序 ， 而 不 是 由 人 设计 的 某 个 东西 。 这 简化 了 逆向 工程 的 任 








110 第 一 部 分 程序 结构 和 执行 


务 ， 因 为 产生 的 代码 遵循 比较 规则 的 模式 ， 而 且 我 们 可 以 做 试验 ， 让 编译 如 产生 许多 不 同 
程序 的 代码 。 本 章 提 供 了 许多 示例 和 大 量 的 练习 ， 来 说 明 汇 编 语言 和 编译 右 的 各 个 不 同方 
面 。 精 通 细 节 是 理解 更 深 和 更 基本 概念 的 先决 条 件 。 有 人 说 : “我 理解 了 一 般 规 则 ， 不 愿 
意 劳 神 去 学 习 细 节 !” 他 们 实际 上 是 在 上 自 其 葡 人 。 花 时 间 研 究 这 些 示 例 、 完 成 练习 并 对 照 
提供 的 答案 来 检查 你 的 答案 ， 是 非常 关键 的 。 

我 们 的 表述 基于 x86-64， 它 是 现在 笔记 本 电脑 和 人 台式 机 中 最 种 见 处 理 右 的 机 需 霹 言 ， 

是 驱动 大 型 数据 中 心 和 超级 计算 机 的 最 常见 处 理 器 的 机 顺 语 言 。 这 种 语言 的 历史 悠久 ， 开 始 
于 Intel 公司 1978 年 的 第 一 个 16 位 处 理 器 ， 然 后 扩展 为 32 位 ， 最 近 又 扩展 到 64 位 。 一 路 以 
来 ， 逐渐 增 加 了 很 多 特性 ， 以 更 好 地 利用 已 有 的 半导体 技术 ， 以 及 满足 市 场 需 求 。 这 些 进步 
中 很 多 是 Intel 自己 驱动 的 ， 但 它 的 对 手 AMD(Advanced Micro Devices) 也 作出 了 重要 的 贡献 。 
演化 的 结果 是 得 到 一 个 相当 奇特 的 设计 ， 有 些 特性 只 有 从 历史 的 观点 来 看 才 有 和 意义 ， 它 还 具 
有 提供 后 向 兼容 性 的 特性 ， 而 现代 编译 器 和 操作 系统 早已 不 再 使 用 这 些 特性 。 我 们 将 关注 
GCC 和 Linux 使 用 的 那些 特性 ， 这 样 可 以 避免 x86-64 的 大 量 复 杂 性 和 许多 隐秘 特性 。 

我 们 在 技术 讲解 之 前 ， 先 快速 浏览 C 语言、 汇编 代码 以 及 机 器 代码 之 间 的 关系 。 然 后 
介绍 x86-64 的 细节 ， 从 数据 的 表示 和 处 理 以 及 控制 的 实现 开始 。 了解 如 何 实现 C 语言 
的 控制 结构 ， 如 if、while 和 switch 语句。 之 后 ， 我 们 会 讲 到 过 程 的 实现 ， 包 括 程 序 如 
何 维护 一 个 运行 栈 来 支持 过 程 间 数据 和 控制 的 传递 ， 以 及 局 部 变量 的 存储 。 接 着 ， 我 们 会 
考虑 在 机 器 级 如 何 实现 像 数组 、 结 构 和 联合 这 样 的 数据 结构 。 有 了 这 些 机 融 级 编程 的 背景 
知识 ， 我 们 会 讨论 内 存 访问 越界 的 问题 ， 以 及 系统 容易 遭受 缓冲 区 溢出 攻击 的 问题 。 在 这 
一 部 分 的 结尾 ， 我 们 会 给 出 一 些 用 GDB 调试 器 检查 机 器 级 程序 运行 时 行为 的 技巧 。 本 章 
的 最 后 展示 了 包含 浮 点 数据 和 操作 的 代码 的 机 器 程序 表示 。 


VL 1A32 编程 

IA32，x86-64 的 32 位 前 身 ， 是 Intel 在 1985 年 提出 的 。 几 十 年 来 一 直 是 Intel 的 机 器 语 
言 之 选 。 今 天 出 售 的 大 多 数 x86 微 处 理 器 ， 以 及 这 些 机 器 上 安装 的 大 多 数 操作 系统 ， 都 是 为 
运行 x86-64 设计 的 。 不 过 ， 它 们 也 可 以 向 后 兼容 执行 IA32 程序 。 所 以 ， 很 多 应 用 程序 还 是 
基于 IA32 的 。 除 此 之 外 ， 由 于 硬件 或 系统 软件 的 限制 ， 许多 已 有 的 系统 不 能 够 执行 x86-64。 
IA32 仍然 是 一 种 重要 的 机 器 语言 。 学 习 过 x86-64 会 使 你 很 容易 地 学 会 IA32 机 器 语言 。 


计算 机 工业 已 经 完成 从 32 位 到 64 位 机 器 的 过 渡 。32 位 机 咒 只 能 使 用 大 概 4GB(2” 字 
节 ) 的 随机 访问 存储 器 。 存 储 帮 价格 急剧 下 降 ， 而 我 们 对 计算 的 需求 和 数据 的 大 小 持续 增 
加 ， 超 越 这 个 限制 既 经 济 上 可 行 又 有 技术 上 的 需要 。 当 前 的 64 位 机 器 能 够 使 用 多 达 
256TB(22 字 节 ) 的 内 存 空 间 ， 而 且 很 容易 就 能 扩展 至 16EB(2™"“ 字 节 )。 虽 然 很 难 想 象 一 台 
机 器 需要 这 么 大 的 内 存 ， 但 是 回想 20 世纪 70 和 80 年 代 ， 当 32 位 机 器 开始 普及 的 时 候 ， 
4GB 的 内 存 看 上 去 也 是 超级 大 的 。 

我 们 的 表述 集中 于 以 现代 操作 系统 为 目标 ， 编 译 C 或 类 似 编 程 语言 时 ， 生 成 的 机 需 级 
程序 类 型 。x86-64 有 一 些 特性 是 为 了 支持 遗留 下 来 的 微 处 理 器 早期 编程 风格 ， 在 此 ， 我 们 
不 试图 去 描述 这 些 特 性 ， 那 时 候 大 部 分 代码 都 是 手工 编写 的 ， 而 程序 员 还 在 努力 与 16 位 
机 帮 人 允许 的 有 限 地 址 空间 奋战 。 


3.1 历史 观点 
Intel 处 理 器 系列 俗称 x86， 经 历 了 一 个 长 期 的 、 不 断 进化 的 发 展 过 程 。 开 始 时 ， 它 是 第 
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一 代 单 芯片 、16 位 微 处 理 右 之 一 ， 由 于 当时 集成 电路 技术 水 平 十 分 有 限 ， 其 中 做 了 很 多 受 
协 。 以 后 ， 它 不 断 地 成 长 ， 利 用 进步 的 技术 满足 更 高 性 能 和 支持 更 高 级 操作 系统 的 需求 。 

以 下 列举 了 一 些 Intel 处 理 器 的 模型 ， 以 及 它们 的 一 些 关 键 特 性 ， 特 别 是 影响 机 硕 级 
编程 的 特性 。 我 们 用 实现 这 些 处 理 需 所 需要 的 晶体 管 数 量 来 说 明 演 变 过 程 的 复杂 性 。 其 
中 ,“K” 表 示 1000,“M” 表 示 1 000 000， 而 “G” 表 示 1 000 000 000。 

8086(1978 年 ，29K 个 晶体 管 )。 它 是 第 一 代 单 发 片 、16 位 微 处 理 器 之 一 。8088 是 8086 
的 一 个 变种 ， 在 8086 上 增加 了 一 个 8 位 外 部 总 线 ， 构 成 最 初 的 IBM 个 人 计算 机 的 心脏 。 
IBM 与 当时 还 不 强大 的 微软 签订 合同 ， 开 发 MS-DOS 操作 系统 。 最 初 的 机 器 型 号 有 32 768 字 
节 的 内 存 和 两 个 软驱 (没有 硬盘 驱动 器 )。 从 体系 结构 上 来 说 ， 这 些 机 器 只 有 655 360 字 厄 的 
地 址 空间 地 址 只 有 20 位 长 (可 寻 址 范围 为 1048 576 字 节 )， 而 操作 系统 保留 了 393 216 字 
节 自 用 。1980 年 ，Intel 提出 了 8087 浮 点 协 处 理 器 (45K 个 品 体 管 )， 它 与 一 个 8086 或 8088 
处 理 器 一 同 运行 ， 执 行 浮 点 指令 。8087 建立 了 x86 系列 的 浮 点 模型 ， 通 常 被 称 为 “x87”。 

80286(1982 年 ，134K 个 晶体 管 )。 增 加 了 更 多 的 寻 址 模式 (现在 已 经 废弃 了 )， 构 成 
了 IBM PC-AT 个 人 计算 机 的 基础 ， 这 种 计算 机 是 MS Windows 最 初 的 使 用 平台 。 

i386(1985 年 ，275K 个 晶体 管 )。 将 体系 结构 扩展 到 32 位 。 增 加 了 平坦 寻 址 模式 (flat 
addressing model)，Linux 和 最 近 版 本 的 Windows 操作 系统 都 是 使 用 的 这 种 模式 。 这 是 
Intel 系列 中 第 一 台 全 面 文 择 Unix 操作 系统 的 机 硕 。 

i486(1989 年 ，1. 2M 个 晶体 管 )。 改 善 了 性 能 ， 同 时 将 浮上 点 单元 集成 到 了 处 理 需 必 片 
上 ， 但 是 指令 集 没 有 明显 的 改变 。 

Pentium(1993 年 ，3. 1M 个 晶体 管 )。 改 善 了 性 能 ， 不 过 只 对 指令 集 进 行 了 小 的 扩展 。 

PentiumPro(1995 年 ，5. 5M 个 品 体 管 )。 引 入 全 新 的 处 理 顺 设计 ， 在 内 部 被 称 为 P6 
微 体系 结构 。 指 令 集 中 增加 了 一 类 “条 件 传送 (conditional move)” 指 令 。 

Pentium/MMX(1997 年 ，4. 5M 个 晶体 管 )。 在 Pentium 处 理 器 中 增加 了 一 类 新 的 处 
理 整 数 向 量 的 指令 。 每 个 数据 大 小 可 以 是 1、2 或 4 字 节 。 每 个 向 量 总 长 64 位 。 

Pentium II(1997 年 ，7M 个 晶体 管 )。P6 微 体 系 结构 的 延伸 。 

Pentium 1I1(1999 年 ，8. 2M 个 晶体 管 )。 引 入 了 SSE， 这 是 一 类 处 理 整 数 或 浮 点 数 回 
量 的 指令 。 每 个 数据 可 以 是 1、2 或 4 个 字 节 ， 打 包 成 128 位 的 同 量 。 由 于 芯片 上 包括 了 
二 级 高 速 缓存 ， 这 种 芯片 后 来 的 版 本 最 多 使 用 了 24M 个 晶体 管 。 

Pentium 4(2000 年 ，42M 个 晶体 管 )。SSE 扩展 到 了 SSE2， 增 加 了 新 的 数据 类 型 ( 包 
括 双 精度 浮 点 数 )， 以 及 针对 这 些 格式 的 144 条 新 指令 。 有 了 这 些 扩 展 ， 编 译 器 可 以 使 用 
SSE 指令 (而 不 是 x87 指令 )， 来 编译 浮 点 代码 。 

Pentium 4E(2004 年 ，125M 个 晶体 管 )。 增 加 了 超 线 程 (hyperthreading)， 这 种 技术 
可 以 在 一 个 处 理 器 上 同时 运行 两 个 程序 ; 还 增加 了 EM64T 工 ， 它 是 Intel 对 AMD 提出 的 对 
IA32 的 64 位 扩展 的 实现 ， 我 们 称 之 为 x86-64。 

Core 2(2006 年 ，291M 个 晶体管 )。 回 归 到 类 似 于 P6 的 微 体系 结构 。Intel 的 第 一 个 
多 核 微 处 理 器 ， 即 多 处 理 喜 实现 在 一 个 芯片 上 。 但 不 文 持 超 线程 。 

Core i7，Nehalem(2008 年 ，781M 个 晶体 管 )。 既 支持 超 线程 ， 也 有 多 核 ， 最 初 的 版 
本 支持 每 个 核 上 执行 两 个 程序 ， 每 个 芯片 上 最 多 四 个 核 。 

Core 这 ，Sandy Bridge(2011 年 ，1.17G 个 品 体 管 )。 引 入 了 AVX， 这 是 对 SSE 的 扩 
展 ， 支 持 把 数据 封装 进 256 位 的 向 量 。 

Core i7，Haswell(2013 年 ，1. 4G 个 品 体 管 )。 将 AVX 扩展 至 AVX2， 增 加 了 更 多 的 
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指令 和 指令 格式 。 

每 个 后 继 处 理 需 的 设计 都 是 后 向 兼容 的 一 一 较 早 版 本 上 编译 的 代码 可 以 在 较 新 的 处 理 
郝 上 运行 。 正 如 我 们 看 到 的 那样 ， 为 了 保持 这 种 进化 传统 ， 指 令 集中 有 许多 非常 奇怪 的 东 
西 。Intel 处 理 器 系列 有 好 几 个 名 字 ， 包 括 IA32， 也 就 是 “Intel 32 位 体系 结构 (Intel 
Architecture 32-bit)”， 以 及 最 新 的 Intel64， 即 IA32 的 64 位 扩展 ， 我 们 也 称 为 x86-64。 
最 第 用 的 名 字 是 “x86”， 我 们 用 它 指 代 整 个 系列 ， 也 反映 了 直到 i486 处 理 器 命名 的 惯例 。 


加 康 丰 定律 (Moorers Law) 
如 果 我 们 画 出 各 种 不 同 的 Intel 处 理 器 中 晶体 管 的 数量 与 它们 出 现 的 年 份 之 间 的 图 
(y 轴 为 晶体 管 数 量 的 对 数值 )， 我 们 能 够 看 出 ， 增 长 是 很 显著 的 。 画 一 条 拟 合 这 些 数 据 
的 线 ， 可 以 看 到 晶体 管 数量 以 每 年 大 约 37% 的 速率 增加 ， 也 就 是 说 ， 晶 体 管 数量 每 26 
个 月 就 会 翻 一 香 。 在 x86 微 处理 器 的 历史 上 ， 这 种 增长 已 经 持续 了 好 几 十 年 。 
Intel 微 处 理 器 的 复杂 性 


Haswell 
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年 份 
1965 年 ，Gordon Moore，Intel 公司 的 创始 人 ， 根 据 当 时 的 芯片 技术 ( 那 时 他 们 能 够 在 
一 个 芯片 上 制造 有 大 约 64 个 晶体 管 的 电路 ) 做 出 推断 ， 预 测 在 未 来 10 年 ， 芯 片上 的 晶体 

管 数量 每 年 都 会 翻 一 番 。 这 个 预测 就 称 为 摩尔 定律 。 正 如 事实 证 明 的 那样 ， 他 的 预测 有 点 乐 
观 ， 而 且 短 视 。 在 超过 50 年 中 ， 半 导体 工业 一 直 能 够 使 得 晶体 管 数目 每 18 个 月 翻 一 倍 。 

对 计算 机 技术 的 其 他 方面 ,也 有 类 似 的 呈 指 数 增长 的 情况 出 现 ， 比 如 磁盘 和 半导体 
存储 器 的 存储 容量 。 这 些 惊 人 的 增长 速度 一 直 是 计算 机 革命 的 主要 驱动 力 。 


这 些 年 来 ， 许 多 公司 生产 出 了 与 Intel 处 理 器 兼容 的 处 理 器 ， 能 够 运行 完全 相同 的 机 
器 级 程序 。 其 中 ,领头 的 是 AMD。 数 年 来 ，AMD 在 技术 上 紧 跟 Intel， 执 行 的 市 场 策略 
是 : 生产 性 能 稍 低 但 是 价格 更 便宜 的 处 理 器 。2002 年 ，AMD 的 处 理 器 变 得 更 加 有 竞争 
力 ， 它们 率先 突破 了 可 商用 微 处 理 器 的 1GHz 的 时 钟 速度 屏障 ， 并 且 引 入 了 广泛 采用 的 
IA32 的 64 位 扩展 x86-64。 虽 然 我 们 讲 的 是 Intel 处 理 器 ， 但 是 对 于 其 竞争 对 手 生产 的 与 
之 兼容 的 处 理 器 来 说 ， 这 些 表述 也 同样 成 立 。 

对 于 由 GCC 编译 天 产生 的 、 在 Linux 操作 系统 平台 上 运行 的 程序 ， 感 兴趣 的 人 大 多 并 不 
关心 x86 的 复 琳 性。 最 初 的 8086 提供 的 内 存 模 型 和 它 在 80286 中 的 扩展 ， 到 1386 的 时 候 就 
都 已 经 过 时 了 。 原 来 的 x87 浮 点 指令 到 引入 SSE2 以 后 就 过 时 了 。 虽 然 在 x86-64 程序 中 ， 我 
们 能 看 到 历史 发 展 的 痕迹 ， 但 x86 中 许多 最 星 梁 难 懂 的 特性 已 经 不 会 出 现 了 。 
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3.2 程序 编码 


假设 一 个 C 程序 ， 有 两 个 文件 pl.c 和 p2.c。 我们 用 Unix 命令 行 编译 这 些 代码 : 
linux> gec =Og =D p plie' p26 


命令 gcc 指 的 就 是 GCC C 编译 项 。 因 为 这 是 Linux 上 默认 的 编译 带 ， 我 们 也 可 以 倍 
单 地 用 cc 来 启动 它 。 编 译 选 项 -0g” 告诉 编译 器 使 用 会 生成 符合 原始 C 代码 整体 结构 的 机 
需 代 码 的 优化 等 级 。 使 用 较 高 级 别 优化 产生 的 代码 会 严重 变形 ， 以 至 于 产生 的 机 郝 代 码 和 
初始 源 代码 之 间 的 关系 非常 难以 理解 。 因 此 我 们 会 使 用 -og 优化 作为 学 习 工 具 ， 然 后 当 我 
们 增加 优化 级 别 时 ， 再 看 会 发 生 什么 。 实 际 中 ， 从 得 到 的 程序 的 性 能 考虑 ， 较 高 级 别 的 优 
化 (例如 ， 以 选项 -01 或 -02 指定 ) 被 认为 是 较 好 的 选择 。 

实际 上 gcc 命令 调用 了 一 整套 的 程序 ， 将 源 代码 转化 成 可 执行 代码 。 首 先 ，C 预 处 理 
器 扩展 源 代 码 ， 插 入 所 有 用 #include 命令 指定 的 文件 ， 并 扩展 所 有 用 #define 声明 指定 
的 宏 。 其 次 ， 编 译 器 产生 两 个 源 文件 的 汇编 代码 ， 名 字 分 别 为 pl.s 和 p2.s。 接 下 来 ， 汇 
编 器 会 将 汇编 代码 转化 成 二 进 制 目标 代码 文件 pl.o 和 p2.o。 目 标 代 码 是 机 需 代 码 的 一 种 
形式 ， 它 包含 所 有 指令 的 二 进 制 表示 ， 但 是 还 没有 填 人 全 局 值 的 地 址 。 最 后 ， 链 接 器 将 两 
个 目标 代码 文件 与 实现 库 函 数 ( 例 如 printf) 的 代码 合并 ， 并 产生 最 终 的 可 执行 代码 文件 p 
(由 命令 行 指示 符 -o p 指定 的 ) 。 可 执行 代码 是 我 们 要 考虑 的 机 融 代 码 的 第 二 种 形式 ， 也 就 
是 处 理 怖 执行 的 代码 格式 。 我 们 会 在 第 7 章 更 详细 地 介绍 这 些 不 同形 式 的 机 需 代 码 之 间 的 
关系 以 及 链接 的 过 程 。 


3.2.1 机 兹 级 代码 


正如 在 1. 9. 3 节 中 讲 过 的 那样 ， 计 算 机 系统 使 用 了 多 种 不 同形 式 的 抽象 ， 利 用 更 简单 
的 抽象 模型 来 隐藏 实现 的 细节 。 对 于 机 顺 级 编程 来 说， 其 中 两 种 抽象 尤为 重要 。 第 一 种 是 
由 指令 集体 系 结 构 或 指令 集 架 构 (Instruction Set Architecture，JISA) 来 定义 机 器 级 程序 的 
格式 和 行为 ， 它 定义 了 处 理 需 状态 、 指 令 的 格式 ， 以 及 每 条 指令 对 状态 的 影响 。 大 多 数 
ISA， 包 括 x86-64， 将 程序 的 行为 描述 成 好 像 每 条 指令 都 是 按 顺 序 执行 的 ， 一 条 指令 结束 
后 ,下 一 条 再 开始 。 处 理 妖 的 人 硬件 远 比 描述 的 精细 复杂 ， 它 们 并 发 地 执行 许多 指令 ， 但 是 可 
以 采取 措施 保证 整体 行为 与 ISA 指定 的 顺序 执行 的 行为 完全 一 致 。 第 二 种 抽象 是 ， 机 器 级 程 
序 使 用 的 内 存 地 址 是 虚拟 地 址 ， 提 供 的 内 存 模型 看 上 去 是 一 个 非常 大 的 字 节 数组 。 存 储 器 系 
统 的 实际 实现 是 将 多 个 人 硬件 存储 颖 和 操作 系统 软件 组 合 起 来 ， 这 会 在 第 9 章 中 讲 到 。 

在 整个 编译 过 程 中 ， 编 译 器 会 完成 大 部 分 的 工作 ， 将 把 用 C 语 言 提 供 的 相对 比较 抽象 的 
执行 模型 表示 的 程序 转化 成 处 理 需 执行 的 非常 基本 的 指令 。 汇 编 代 码 表示 非常 接近 于 机 器 代 
码 。 与 机 需 代 码 的 二 进 制 格式 相 比 ， 汇 编 代 码 的 主要 特点 是 它 用 可 读 性 更 好 的 文本 格式 表示 。 
能 够 理解 汇编 代码 以 及 它 与 原始 C 代码 的 联系 ， 是 理解 计算 机 如 何 执行 程序 的 关键 一 步 。 

x86-64 的 机 器 代码 和 原始 的 C 代码 差别 非常 大 。 一 些 通常 对 C 语言 程序 员 隐 藏 的 处 
理 需 状态 都 是 可 见 的 ， 

e@ 程序 计数 器 (通常 称 为 “PC”， 在 x86-64 中 用 srip 表示 ) 给 出 将 要 执行 的 下 一 条 指 

令 在 内 存 中 的 地 址 。 


加 GCC 版 本 4.8 引 入 了 这 个 优化 等 级 。 较 早 的 GCC 版 本 和 其 他 一 些 非 GNU 编译 器 不 认识 这 个 选项 。 对 这 样 一 
些 编译 器 ， 使 用 一 级 优化 (由 命令 行 标志 -ol 指定 ) 可 能 是 最 好 的 选择 ， 生 成 的 代码 能 够 符合 原始 程序 的 结构 。 
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@ 整数 寄存 器 文件 包含 16 个 命名 的 位 置 ， 分 别 存储 64 位 的 值 。 这 些 寄存 器 可 以 存储 地 址 
(对 应 于 C 语言 的 指针 ) 或 整数 数据 。 有 的 寄存 器 被 用 来 记录 某 些 重要 的 程序 状态 ， 而 其 
他 的 寄存 器 用 来 保存 临时 数据 ， 例 如 过 程 的 参数 和 局 部 变量 ， 以 及 困 数 的 返回 值 。 
e 条 件 码 寄存 器 保存 着 最 近 执 行 的 算术 或 逻辑 指令 的 状态 信息 。 它 们 用 来 实现 控制 或 
数据 流 中 的 条 件 变 化 ， 比 如 说 用 来 实现 if 和 while 语句 。 
e 一 组 回 量 寄存 器 可 以 存放 一 个 或 多 个 整数 或 浮 点 数值 。 
虽然 CC 语言 提供 了 一 种 模型 ， 可 以 在 内 存 中 声明 和 分 配 各 种 数据 类 型 的 对 象 ， 但 是 机 天 
代码 只 是 简单 地 将 内 存 看 成 一 个 很 大 的 、 按 字 节 寻 址 的 数组 。C 语言 中 的 聚合 数据 类 型 ， 例 
如 数组 和 结构 ， 在 机 器 代码 中 用 一 组 连续 的 字 节 来 表示 。 即 使 是 对 标量 数据 类 型 ， 汇 编 代 码 
也 不 区 分 有 符号 或 无 符号 整数 ， 不 区 分 各 种 类 型 的 指针 ， 甚 至 于 不 区 分 指针 和 整数 。 
程序 内 存 包含 : 程序 的 可 执行 机 器 代码 ， 操 作 系 统 需要 的 一 些 信 息 ， 用 来 管理 过 程 调 
用 和 返回 的 运行 时 栈 ， 以 及 用 户 分 配 的 内 存 块 (比如 说 用 malloc 库 涌 数 分 配 的 )。 正 如 前 
面 提 到 的 ， 程 序 内 存 用 虚拟 地 址 来 寻 址 。 在 任意 给 定 的 时 刻 ， 只 有 有 限 的 一 部 分 虚拟 地 址 
被 认为 是 合法 的 。 例 如 ，x86-64 的 虚拟 地 址 是 由 64 位 的 字 来 表示 的 。 在 目前 的 实现 中 ， 
这 些 地 址 的 高 16 位 必须 设置 为 0， 所 以 一 个 地 址 实际 上 能 够 指定 的 是 2 或 64TB 范围 内 
的 一 个 字 节 。 较 为 典型 的 程序 只 会 访问 几 兆 字 节 或 几 千 兆 字 节 的 数据 。 操 作 系 统 负责 管理 
虚拟 地 址 空间 ， 将 虚拟 地 址 翻译 成 实际 处 理 器 内存 中 的 物理 地 址 。 
一 条 机 器 指令 只 执行 一 个 非常 基本 的 操作 。 例 如 ， 将 存放 在 寄存 器 中 的 两 个 数字 相 加 ， 
在 存储 器 和 寄存 器 之 间 传 送 数据 ， 或 是 条 件 分 文 转移 到 新 的 指令 地 址 。 编 译 需 必须 产生 这 些 
指令 的 序列 ， 从 而 实现 ( 像 算 术 表达 式 求 值 、 循 环 或 过 程 调 用 和 返回 这 样 的 ) 程 序 结构 。 


EE3 不 断 变 化 的 生成 代码 的 格式 

在 本 书 的 表述 中 ， 我 们 给 出 的 代码 是 由 特定 版 本 的 GCC 在 特定 的 命令 行 选项 设置 
下 产生 的 。 如 果 你 在 自己 的 机 器 上 编译 代码 ， 很 有 可 能 用 到 其 他 的 编译 器 或 者 不 同 版 本 
的 GCC， 因 而 会 产生 不 同 的 代码 。 支 持 GCC 的 开源 社区 一 直 在 修改 代码 产生 器 ， 试 图 
根据 微 处 理 器 制造 商 提供 的 不 断 变化 的 代码 规则 ， 产 生 更 有 效 的 代码 。 

本 书 示例 的 目标 是 展示 如 何 查看 汇编 代码 ， 并 将 它 反 向 映射 到 高 级 编程 语言 中 的 结 
构 。 你 需要 将 这 些 技 术 应 用 到 你 的 特定 的 编译 器 产生 的 代码 格式 上 。 


3.2.2 代码 示例 


假设 我 们 写 了 一 个 C 语言 代码 文件 mstore.c， 包 含 如 下 的 图 数 定义 : 
long mult2(long, long); 
void multstore(long x, long y, long *dest) { 
long t = mult2(x, y); 
*dest = t; 
} 
在 命令 行 上 使 用 “-s” 选 项 ， 就 能 看 到 C 语言 编译 顺产 生 的 汇编 代码 : 
linux> gcc -Ug -S mstore.c 
这 会 使 GCC 运行 编译 器 ， 产 生 一 个 汇编 文件 mstore.s， 但 是 不 做 其 他 进一步 的 工 
作 。( 通 常情 况 下 ， 它 还 会 继续 调用 汇编 器 产生 目标 代码 文件 )。 
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汇编 代码 文件 包含 各 种 声明 ， 包 括 下 面 几 行 : 


multstore: 


pushqg 


movg 
call 
moVdq 
PopPq 
ret 


Wrbx 

Lrdx, Wrbx 
mult2 

hrax, (4rbx) 
rbx 


i118 


上 面 代 码 中 每 个 缩 进 去 的 行者 对 应 于 一 条 机 紫 指 令 。 比 如 ，pushq 指令 表示 应 该 将 寄存 器 8 

rbx 的 内 容 压 人 程序 栈 中 。 这 段 代码 中 已 经 除去 了 所 有 关于 局 部 变量 名 或 数据 类 型 的 信息 。 
如 果 我 们 使 用 “-c” 命 令 行 选 项 ，GCC 会 编译 并 汇编 该 代码 : 
linux> gcc -Ug -Cc mstore.c 

这 就 会 产生 目标 代码 文件 mstore.o， 它 是 二 进 制 格式 的 ， 所 以 无 法 直接 查看 。1368 字 节 

的 文件 mstore.o 中 有 一 段 14 字 节 的 序列 ， 它 的 十 六 进 制 表示 为 ， 
53 48 89 d3 e8 00 00 00 00 48 89 03 5b c3 

这 就 是 上 面 列 出 的 汇编 指令 对 应 的 目标 代码 。 从 中 得 到 一 个 重要 信息 ， 即 机 器 执行 的 程序 只 

是 一 个 字 节 序列 ， 它 是 对 一 系列 指令 的 编码 。 机 融 对 产生 这 些 指 令 的 源 代 码 几 乎 一 无 所 知 。 


国 河 如 何 展示 程序 的 字 节 表示 


要 展示 程序 (比如 说 mstore) 的 二 进 制 目标 代码 ， 我 们 用 反 汇 编 器 (后 面 会 讲 到 ) 确 


定 该 过 程 的 代码 长 度 是 14 字 节 。 然 后 ， 在 文件 mstore.o 上 运行 GNU 调试 工具 GDB， 
输入 命令 : 


(gdb) x/14xb multstore 


这 条 命令 告诉 GDB 显示 (简写 为 ‘x’) 从 函数 multstore 所 处 地 址 开始 的 14 个 十 六 进 制 
格式 表示 (也 简写 为 “x’) 的 字 节 (简写 为 ‘b”)。 你 会 发 现 ，GDB 有 很 多 有 用 的 特性 可 以 
用 来 分 析 机 器 级 程序 ， 我 们 会 在 3.10.2 节 中 讨论 。 


要 查看 机 器 代码 文件 的 内 容 ， 有 一 类 称 为 反 汇 编 器 (disassembler) 的 程序 非常 有 用 。 
这 些 程序 根据 机 天 代码 产生 一 种 类 似 于 汇编 代码 的 格式 。 在 Linux 系统 中 ， 带 “ -qd’ 命 令 行 
标志 的 程序 OBJDUMP( 表 示 “object dump”) 可 以 充当 这 个 角色 : 

linux> objdump -da mstore.o 
结果 如 下 (这 里 ， 我 们 在 左边 增加 了 行 号 ， 在 右边 增加 了 和 斜体 表示 的 注解 ) : 


Disassembly of function multstore in binary file mstore.o 


O0000000000000000 <multstore>: 


] 


em 上 NU NS 


Dffset 
0: 


已 DO OO 本 


Bytes Equivalent assembly language 
53 push ‘hrbx 

48 89 d3 mov Wrdx, hrbx 

e8 00 00 00 00 callgq 9 <multstore+0x9> 
48 89 03 moV MTaXx，(XTrbX) 

5b pop hrbx 

c3 retq 


在 左边 ， 我 们 看 到 按照 前 面 给 出 的 字 节 顺序 排列 的 14 个 十 六 进 制 字 节 值 ， 它 们 分 成 了 若 
干 组 ， 每 组 有 1 一 5 个 字 节 。 每 组 都 是 一 条 指令 ， 右 边 是 等 价 的 汇编 语言 。 
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其 中 一 些 关 于 机 器 代码 和 它 的 反 汇 编 表 示 的 特性 值得 注意 : 

e x86-64 的 指令 长 度 从 1 到 15 个 字 节 不 等 。 常 用 的 指令 以 及 操作 数 较 少 的 指令 所 需 
的 字 节 数 少 ， 而 那些 不 太 负 用 或 操作 数 较 多 的 指令 所 需 字 节 数 较 多 。 

e 设计 指令 格式 的 方式 是 ， 从 某 个 给 定位 置 开 始 ， 可 以 将 字 节 唯一 地 解码 成 机 器 指 
令 。 例如， 只 有 指令 pushq %rbx 是 以 字 节 值 53 开头 的 。 

e 反 汇 编 硕 只 是 基于 机 顺 代 码 文件 中 的 字 节 序列 来 确定 汇编 代码 。 它 不 需要 访问 该 程 
序 的 源 代 码 或 汇编 代码 。 

e 反 汇 编 硕 使 用 的 指令 命名 规则 与 GCC 生成 的 汇编 代码 使 用 的 有 些 细微 的 差别 。 在 
我 们 的 示例 中 ， 它 省 略 了 很 多 指令 结尾 的 “aq"。 这 些 后 缀 是 大 小 指示 符 ， 在 大 多 数 
情况 中 可 以 省 略 。 相 反 ， 反 汇编 器 给 call 和 ret 指令 添加 了 “9? 后 级 ， 同 样 ， 省 略 
这 些 后 级 也 没有 问题 。 

生成 实际 可 执行 的 代码 需要 对 一 组 目标 代码 文件 运行 链接 器 ， 而 这 一 组 目标 代码 文件 

中 必须 含有 一 个 main 函数 。 假 设 在 文件 main.c 中 有 下 面 这 样 的 函数 : 


#include <stdio.h> 
void multstore(long, long, long *); 


int main() { 
long d,; 
multstore(2, 3, &d); 
print£("g * 3 一 > Wd\n"s: d); 
return 0; 

} 

long mult2(long a, long b) 攻 
long s = a* Db; 
return s; 


} 
然后 ， 我 们 用 如 下 方法 生成 可 执行 文件 prog: 
linux> gcc -Ug -0 prog main.c mstore.c 


文件 prog 变 成 了 8 655 个 字 节 ， 因 为 它 不 仅 包 含 了 两 个 过 程 的 代码 ， 还 包含 了 用 来 启动 和 
终止 程序 的 代码 ， 以 及 用 来 与 操作 系统 交互 的 代码 。 我 们 也 可 以 反 汇 编 prog 文件 : 


linux> objdump -da prog 
反 汇 编 右 会 抽取 出 各 种 代码 序列 ， 包 括 下 面 这 上段: 


Disassembly cf function sum multstore binary file prog 
] 0000000000400540 <multstore>: 
2 400540: 53 push  %rbx 
3 400541: 48 89 d3 mov rdx, Wrbx 
4 400544: ee8 42 00 00 00 callq 40058b <mult2> 
5 400549: 48 89 03 mOV hrax, (hrbx) 
6 40054c: 5b pop hrbx 
7 40054d: c3 retq 
8 40054e: 90 nop 
9 40054f: 90 nop 


这 段 代 码 与 mstore.c 反 汇编 产生 的 代码 几乎 完全 一 样 。 其 中 一 个 主要 的 区 别 是 左边 
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列 出 的 地 址 不 同 链接 器 将 这 段 代码 的 地 址 移 到 了 一 段 不 同 的 地 址 范围 中 。 第 二 个 不 同 
之 处 在 于 链接 器 填 上 了 callqg 指令 调用 函数 mult2 需要 使 用 的 地 址 ( 反 汇 编 代 码 第 4 行 )。 
链接 器 的 任务 之 一 就 是 为 图 数 调用 找到 匹配 的 函数 的 可 执行 代码 的 位 置 。 最 后 一 个 区 别 是 
多 了 两 行 代码 (第 8 和 9 行 )。 这 两 条 指令 对 程序 没有 影响 ， 因 为 它们 出 现在 返回 指令 后 面 
(第 7 行 )。 插 入 这 些 指令 是 为 了 使 函数 代码 变 为 16 字 节 ， 使 得 就 存储 器 系统 性 能 而 言 ， 
能 更 好 地 放置 下 一 个 代码 块 。 


3.2.3 关于 格式 的 注解 


GCC 产生 的 汇编 代码 对 我 们 来 说 有 点 儿 难 读 。 一 方面 ， 它 包含 一 些 我 们 不 需要 关心 
的 信息 ， 男 一 方面 ， 它 不 提供 任何 程序 的 描述 或 它 是 如 何 工 作 的 描述 。 例 如 ， 假 设 我 们 用 
如 下 命令 生成 文件 mstore.s。 


linux> gcc -0g -9 mstore.c 


mstore.s 的 完整 内 容 如 下 : 


file "0i0-mstore.c" 

.text 

.Elobl multstore 

‘type multstore, @function 
multstore: 

pushq  %rbx 

movqg rdx: WrIbx 

call mult2 


movdq hrax, (hrbx) 

popq hrbx 

ret 

.SiZe multstore, .-multstore 

.ident "GCC: (Ubuntu 4.8.1-2ubuntui~12.04) 4.8.1" 
.Section -note.GNU-stack,"",@progbits 


所 有 以 “开头 的 行 都 是 指导 汇编 右 和 链接 器 工作 的 伪 指 令 。 我 们 通常 可 以 忽略 这 些 
行 。 另 一 方面 ， 也 没有 关于 指令 的 用 途 以 及 它们 与 源 代 码 之 间 关 系 的 解释 说 明 。 

为 了 更 清楚 地 说 明 汇编 代码 ， 我 们 用 这 样 一 种 格式 来 表示 汇编 代码 ， 它 省 略 了 大 部 分 
伪 指令 ， 但 包括 行 号 和 解释 性 说 明 。 对 于 我 们 的 示例 ， 带 解释 的 汇编 代码 如 下 : 


void multstore(long x, long y, long *dest) 


X in Krdi, y in hrsi, dest in hrdx 


1 multstore: 

2 pushq %rbx Save Yrbx 

3 movg rdx, hrbx Copy dest to Wrbx 

4 call mult2 Call mult2(x, y) 

5 movqg hrax, (hrbx) Store result at *dest 
6 popq hrbx Restore %rbx 

7 ret Return 


通常 我 们 只 会 给 出 与 讨论 内 容 相 关 的 代码 行 。 每 一 行 的 左边 都 有 编号 供 引 用 ， 右 边 是 
注释 ， 简 单 地 描述 指令 的 效果 以 及 它 与 原始 C 语言 代码 中 的 计算 操作 的 关系 。 这 是 一 种 汇 
编 语 言 程序 员 写 代码 的 风格 。 

我 们 还 提供 网 络 旁 注 ， 为 专门 的 机 器 语言 爱好 者 提供 一 些 资 料 。 一 个 网 络 旁 注 描述 的 
是 IA32 机 器 代码 。 有 了 x86-64 的 背景 ， 学 习 IA32 会 相当 简单 。 另 外 一 个 网 络 旁 注 简要 
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描述 了 在 C 语言 中 插入 汇编 代码 的 方法 。 对 于 一 些 应 用 程序 ， 程 序 员 必须 用 汇编 代码 来 访 
问 机 需 的 低级 特性 。 一 种 方法 是 用 汇编 代码 编写 整个 函数 ， 在 链接 阶段 把 它们 和 C 函数 组 
合 起 来 。 夯 一 种 方法 是 利用 GCC 的 支持 ， 直 接 在 C 程序 中 骨 入 汇编 代码 。 


EE3 ATT 与 Intel 汇编 代码 格式 

我 们 的 表述 是 ATT( 根 据 “AT&T” 命 名 的 ，AT&T 是 运营 贝尔 实验 室 多 年 的 公 
司 ) 格 式 的 汇编 代码 ， 这 是 GCC、OBJDUMP 和 其 他 一 些 我 们 使 用 的 工具 的 默认 格式 。 
其 他 一 些 编 程 工具 ， 包 括 Microsoft 的 工具 ， 以 及 来 自 Intel 的 文档 ， 其 汇编 代码 都 是 
Intel 格式 的 。 这 两 种 格式 在 许多 方面 有 所 不 同 。 例 如 ， 使 用 下 述 命令 行 ，GCC 可 以 产 
生 multstore 函数 的 Intel 格式 的 代码 ; 


linux> gcc -0g -9 -masm=intel mstore.c 


这 个 命令 得 到 下 列 汇编 代码 ， 


multstore: 
push rbx 
mov rbxs reax 
call mult2 
moV QWORD PTR .[zbx] ，Trax 
PoP TbX 


ret 


我 们 看 到 Intel 和 ATT 格式 在 如 下 方面 有 所 不 同 : 

@ Intel 代码 省 略 了 指示 大 小 的 后 缓 。 我 们 看 到 指令 push 和 mov， 而 不 是 pushq 和 movq。 

@ Intel 代码 省 略 了 寄存 器 名 字 前 面 的 “% "符号 ， 用 的 是 rbx， 而 不 是 Srbx。 

@ Intel 代码 用 不 同 的 方式 来 描述 内 存 中 的 位 置 ， 例如 是 ‘QWORD PTR [rbx] 而 不 是 
7 {es 

@ 在 带 有 多 个 操作 数 的 指令 情况 下 ， 列 出 操作 数 的 顺序 相反 。 当 在 两 种 格式 之 间 进 
行 转换 的 时 候 ， 这 一 点 非常 令 人 困惑 。 

虽然 在 我 们 的 表述 中 不 使 用 Intel 格式 ， 但 是 在 来 自 Intel 和 Microsoft 的 文档 中 ， 

你 会 遇 到 它 。 


[及 二 SYS 把 C 程序 和 汇编 代码 结合 起 来 

虽然 C 编译 器 在 把 程序 中 表达 的 计算 转换 到 机 器 代码 方面 表现 出 色 ， 但 是 仍然 有 一 
些 机 器 特性 是 C 程序 访问 不 到 的 。 例 如 ， 每 次 x86-64 处 理 器 执行 算术 或 逻辑 运算 时 ， 
如 果 得 到 的 运算 结果 的 低 8 位 中 有 偶数 个 1， 那 么 就 会 把 一 个 名 为 PF 的 1 位 条 件 码 
(condition code) 标 志 设 置 为 1， 否则 就 设置 为 0。 这 里 的 PF 表示 “parity flag( 奇 偶 标 
志 )”。 在 C 语 言 中 计算 这 个 信息 需要 至 少 7 次 移 位 、 掩 码 和 骨 或 运算 (参见 习题 2. 65)。 
即使 作为 每 次 算术 或 逻辑 运算 的 一 部 分 ， 硬件 都 完成 了 这 项 计算 , 而 C 程 序 却 无 法 知道 
PF 条 件 码 标志 的 值 。 在 程序 中 插入 几 条 汇编 代码 指令 就 能 很 容易 地 完成 这 项 任务 。 

在 C 程 序 中 插入 汇编 代码 有 两 种 方法 。 第 一 种 是 ,我们 可 以 编写 完整 的 函数 ， 放 进 
一 个 独立 的 汇编 代码 文件 中 ， 让 汇编 器 和 链接 器 把 它 和 用 C 语言 书写 的 代码 合并 起 来 。 
第 二 种 方法 是 ， 我们 可 以 使 用 GCC 的 内 联 汇 编 (inline assembly) 特 性 ， 用 asm 伪 指 令 可 
以 在 C 程序 中 包含 简短 的 汇编 代码 。 这 种 方法 的 好 处 是 减少 了 与 机 器 相关 的 代码 量 。 
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当然 ， 在 CC 程序 中 包含 汇编 代码 使 得 这 些 代 码 与 某 类 特殊 的 机 器 相关 (例如 x86- 
64)， 所 以 只 应 该 在 想 要 的 特性 只 能 以 此 种 方式 才能 访问 到 时 才 使 用 它 。 


3.3 数据 格式 


由 于 是 从 16 位 体系 结构 扩展 成 32 位 的 ，Intel 用 术语 “ 字 (word)” 表 示 16 位 数据 类 
型 。 因 此 ， 称 32 位 数 为 “ 双 字 (double words)”， 称 64 位 数 为 “四 字 (quad words)”。 
图 3-1 给 出 了 C 语言 基本 数据 类 型 对 应 的 x86-64 表示 。 标 准 int 值 存 储 为 双 字 (32 位 )。 
指针 (在 此 用 char * 表示 ) 存 储 为 8 字 市 的 四 字 ，64 位 机 需 本 来 就 预期 如 此 。x86-64 中 ， 
数据 类 型 1ong 实现 为 64 位 ， 人 允许 表示 的 值 范围 较 大 。 本 章 代 码 示 例 中 的 大 部 分 都 使 用 了 
指针 和 long 数据 类 型 ， 所 以 都 是 四 字 操 作 。x86-64 指令 集 同 样 包括 完整 的 针对 字 节 、 字 
和 双 字 的 指令 。 


大 小 ( 字 节 ) 





图 3-] 言 数据 类 型 在 x86-64 中 的 大 小 。 在 64 位 机 器 中 ， 指 针 长 8 字 市 


浮上 点数 主要 有 两 种 形式 : 单 精度 (4 字 节 ) 值 ， 对 应 于 C 语言 数据 类 型 float; 双 精 度 
(8 字 节 ) 值 ， 对 应 于 C 语言 数据 类 型 double。x86 家 族 的 微 处 理 帮 历史 上 实现 过 对 一 种 特 
殊 的 80 位 (10 字 节 ) 浮 点 格式 进行 全 套 的 浮 点 运算 (参见 家 庭 作 业 2. 86)。 可 以 在 C 程序 中 
用 声明 long double 来 指定 这 种 格式 。 不 过 我 们 不 建议 使 用 这 种 格式 。 它 不 能 移植 到 其 他 
类 型 的 机 器 上 ， 而 且 实 现 的 硬件 也 不 如 单 精 度 和 双 精 度 算术 运算 的 高 效 。 

如 图 所 示 ， 大 多 数 GCC 生成 的 汇编 代码 指令 都 有 一 个 字符 的 后 级， 表明 操作 数 的 大 
小 。 例 如 ， 数 据 传 送 指令 有 四 个 变种 : movb( 传 送 字 节 )、movw( 传 送 字 )、mov1l( 传 送 双 
字 ) 和 movq (传送 四 字 )。 后 级 “1’ 用 来 表示 双 字 ， 因 为 32 位 数 被 看 成 是 “长 字 (1long 
word)”。 注 意 ， 汇 编 代码 也 使 用 后 级 ‘1’ 来 表示 4 字 节 整数 和 8 字 节 双 精 度 浮 点 数 。 这 不 
会 产生 歧义 ， 因 为 浮 点 数 使 用 的 是 一 组 完全 不 同 的 指令 和 寄存 器 。 


3.4 访问 信息 


一 个 x86-64 的 中 央 处 理 单元 (CPU) 包 含 一 组 16 个 存储 64 位 值 的 通用 目的 寄存 器 。 
这 些 寄存 器 用 来 存储 整数 数据 和 指针 。 图 3-2 显示 了 这 16 个 寄存 器 。 它 们 的 名 字 都 以 sr 
开头 ， 不 过 后 面 还 跟着 一 些 不 同 的 命名 规则 的 名 字 ， 这 是 由 于 指令 集 历 史 演化 造成 的 。 最 
初 的 8086 中 有 8 个 16 位 的 寄存 器 ， 即 图 3-2 中 的 sax 到 sbp。 每 个 寄存 器 都 有 特殊 的 用 
途 ， 它 们 的 名 字 就 反映 了 这 些 不 同 的 用 途 。 扩 展 到 IA32 架构 时 ， 这 些 寄 存 器 也 扩展 成 32 
位 寄存 器 ， 标 号 从 seax 到 sebp。 扩 展 到 x86-64 后 ， 原 来 的 8 个 寄存 器 扩展 成 64 位 ， 标 
号 从 srax 到 srbp。 除 此 之 外 ， 还 增加 了 8 个 新 的 寄存 器 ， 它 们 的 标号 是 按照 新 的 命名 规 
则 制定 的 : 从 Sr8 到 gr15。 


120 第 一 部 分 程序 结构 和 执行 


63 31 15 7 0 
SEeax 多 己基 返回 值 

Srbx Sebx $bx Sbl 被 调用 者 保存 
Sedx $dx $d1 第 3 个 参数 

和 Si Sesi 多 Si 第 2 个 参数 

srdi gSedi sdi 第 1 个 参数 

$rbp $ebp Sbp 被 调用 者 保存 

$rsp $esp $sp 栈 指针 

sr8 sr8d Sr8w 第 5 个 参数 
sr9d srw 第 6 个 参数 
srl10d %r10w 调用 者 保存 
srlld Srllw 调用 者 保存 
sri2d $r12w 被 调用 者 保存 
sr13d $r13w 被 调用 者 保存 
Sri4d Sr14w 被 调用 者 保存 
sr1l5d Srl5w 被 调用 者 保存 


图 3-2 整数 寄存 器 。 所 有 16 个 寄存 器 的 低位 部 分 都 可 以 作为 字 节 、 
字 (16 位 ) 、 双 字 (32 位 ) 和 四 字 (64 位 ) 数 字 来 访问 


如 图 3-2 中 舱 套 的 方 框 标 明 的 ， 指 令 可 以 对 这 16 个 寄存 器 的 低位 字 节 中 存放 的 不 同 
大 小 的 数据 进行 操作 。 字 节 级 操作 可 以 访问 最 低 的 字 节 ，16 位 操作 可 以 访问 最 低 的 2 个 字 
节 ，32 位 操作 可 以 访问 最 低 的 4 个 字 节 ， 而 64 位 操作 可 以 访问 整个 寄存 器 。 

在 后 面 的 章节 中 ， 我们 会 展现 很 多 指令 ， 复制 和 生成 1 字 节 、2 字 节 、4 字 节 和 8 字 
节 值 。 当 这 些 指令 以 寄存 器 作为 目标 时 ， 对 于 生成 小 于 8 字 节 结果 的 指令 ， 寄 存 器 中 剩 下 
的 字 节 会 怎么 样 ， 对 此 有 两 条 规则 : 生成 1 字 节 和 2 字 节 数字 的 指令 会 保持 剩 下 的 字 节 不 
变 ; 生成 4 字 节 数字 的 指令 会 把 高 位 4 个 字 节 置 为 0。 后 面 这 条 规则 是 作为 从 IA32 到 
x86-64 的 扩展 的 一 部 分 而 采用 的 。 

就 像 图 3-2 右边 的 解释 说 明 的 那样 ， 在 常见 的 程序 里 不 同 的 寄存 器 扮演 不 同 的 角色 。 
其 中 最 特别 的 是 栈 指 针 srsp， 用 来 指明 运行 时 栈 的 结束 位 置 。 有 些 程序 会 明确 地 读 写 这 个 
寄存 器 。 另 外 15 个 寄存 器 的 用 法 更 灵活 。 少 量 指令 会 使 用 某 些 特定 的 寄存 器 。 更 重要 的 


是 ， 有 一 组 标准 的 编程 规范 控制 着 如 何 使 用 寄存 器 来 管理 栈 、 传 递 函 数 参 数 、 从 函数 的 返 
回 值 ， 以 及 存储 局 部 和 临时 数据 。 我 们 会 在 描述 过 程 的 实现 时 (特别 是 在 3.7 节 中 )， 讲 述 
这 些 惯例 。 


3.4.1 操作 数 指示 符 


大 多 数 指令 有 一 个 或 多 个 操作 数 (operand)， 指 示 出 执行 一 个 操作 中 要 使 用 的 源 数据 
值 ， 以 及 放置 结果 的 目的 位 置 。x86-64 支持 多 种 操作 数 格式 (参见 图 3-3)。 源 数据 值 可 以 
以 常数 形式 给 出 ， 或 是 从 寄存 器 或 内 存 中 读 出 。 结 果 可 以 存放 在 寄存 需 或 内 存 中 。 因 此 ， 
各 种 不 同 的 操作 数 的 可 能 性 被 分 为 三 种 类 型 。 第 一 种 类 型 是 立即 数 (immediate)， 用 来 表 
示 常 数值 。 在 ATT 格式 的 汇编 代码 中 ， 立 即 数 的 书写 方式 是 “$ 后面 跟 一 个 用 标准 C 表 
示 法 表示 的 整数 ， 比 如 ，$-577 或 $0xlF。 不 同 的 指令 允许 的 立即 数值 范围 不 同 ， 汇编 器 
会 自动 选择 最 紧凑 的 方式 进行 数值 编码 。 第 二 种 类 型 是 寄存 器 (register)， 它 表示 某 个 寄 
存 器 的 内 容 ，16 个 寄存 器 的 低位 1 字 节 、2 字 节 、4 字 节 或 8 字 节 中 的 一 个 作为 操作 数 ， 
这 些 字 节 数 分 别 对 应 于 8 位、16 位 、32 位 或 64 位 。 在 图 3-3 中 ， 我 们 用 符号 rs 来 表示 任 
意 寄存 器 a， 用 引用 RL 来 表示 它 的 值 ， 这 是 将 寄存 器 集合 看 成 一 个 数组 R， 用 寄存 器 标 
识 符 作 为 索引 。 

第 三 类 操作 数 是 内 存 引用 ， 它 会 根据 计算 出 来 的 地 址 (通常 称 为 有 效 地 址 ) 访 问 某 个 内 
存 位 置 。 因 为 将 内 存 看 成 一 个 很 大 的 字 节 数组 ， 我 们 用 符号 MLAddrj 表 示 对 存储 在 内 存 
中 从 地 址 Addr 开始 的 5 个 字 节 值 的 引用 。 为 了 简便 ， 我 们 通常 省 去 下 标 2。 

如 图 3-3 所 示 ， 有 多 种 不 同 的 寻 址 模式 ， 人 允许 不 同形 式 的 内 存 引 用 。 表 中 底部 用 语法 
Imm(r,，r;，s) 表 示 的 是 最 常用 的 形式 。 这 样 的 引用 有 四 个 组 成 部 分 : 一 个 立即 数 偏 移 
Imm， 一 个 基 址 寄存 器 r;， 一 个 变 址 寄存 器 r; 和 一 个 比例 因子 ;， 这 里 ; 必须 是 1、2、4 或 者 
8。 基 址 和 变 址 寄存 器 都 必须 是 64 位 寄存 器 。 有 效 地 址 被 计算 为 Imm 十 RLr, | 十 RLr;]，s。 引 
用 数组 元 素 时 ， 会 用 到 这 种 通用 形式 。 其 他 形式 都 是 这 种 通用 形式 的 特殊 情况 ， 只 是 省 略 
了 某 些 部 分 。 正 如 我 们 将 看 到 的 ， 当 引用 数组 和 结构 元 素 时 ， 比 较 复 杂 的 寻 址 模式 是 很 有 
用 的 。 













操作 数值 
立即 数 寻 址 
_ 宕 有 器 | rt | Rm | 寄存 器 寻 址 





有 储 器 | JJ | MRI | 间接 引 


图 33 操作 数 格式 。 操 作 数 可 以 表示 立即 数 ( 常 数 ) 值 、 寄 存 费 值 或 是 来 日 
内 存 的 值 。 比 例 因 子 ; 必须 是 1、2、4 或 者 8 


区 练习 题 3. 1 假设 下 面 的 值 存放 在 指明 的 内 存 地 址 和 寄存 器 中 : 
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3.4.2 数据 传送 指令 


最 频繁 使 用 的 指令 是 将 数据 从 一 个 位 置 复制 到 男 一 个 位 置 的 指令 。 操 作 数 表示 的 通用 
性 使 得 一 条 简单 的 数据 传送 指令 能 够 完成 在 许多 机 器 中 要 好 几 条 不 同 指令 才能 完成 的 功 
能 。 我 们 会 介绍 多 种 不 同 的 数据 传送 指令 ， 它 们 或 者 源 和 目的 类 型 不 同 ， 或 者 执行 的 转换 
不 同 ， 或 者 具有 的 一 些 副作用 不 同 。 在 我 们 的 讲述 中 ， 把 许多 不 同 的 指令 划分 成 指令 类 ， 
每 一 类 中 的 指令 执行 相同 的 操作 ， 只 不 过 操作 数 大 小 不 同 。 

图 3-4 列 出 的 是 最 简单 形式 的 数据 传送 指令 一 MOV 类 。 这 些 指令 把 数据 从 源 位 置 
复制 到 目的 位 置 ， 不 做 任何 变化 。MOV 类 由 四 条 指令 组 成 : movb、movw、mov1l 和 
movq。 这 些 指令 都 执行 同样 的 操作 ; 主要 区 别 在 于 它们 操作 的 数据 大 小 不 同 : 分 别 是 1、 
2、4 和 8 字 节 。 





movabsg 


图 3-4 简单 的 数据 传送 指令 


源 操作 数 指定 的 值 是 一 个 立即 数 ， 存 储 在 寄存 顺 中 或 者 内 存 中 。 目 的 操作 数 指定 一 个 
位 置 ， 要 么 是 一 个 寄存 器 或 者 ， 要 么 是 一 个 内 存 地 址 。x86-64 加 了 一 条 限制 ， 传 送 指令 的 
两 个 操作 数 不 能 都 指向 内 存 位 置 。 将 一 个 值 从 一 个 内 存 位 置 复制 到 另 一 个 内 存 位 置 需要 两 
条 指令 一 一 第 一 条 指令 将 源 值 加 载 到 寄存 器 中 ， 第 二 条 将 该 寄存 咒 值 写 人 目的 位 置 。 参 考 
图 3-2， 这 些 指令 的 寄存 器 操作 数 可 以 是 16 个 寄存 器 有 标号 部 分 中 的 任意 一 个 ， 寄 存 器 部 
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分 的 大 小 必须 与 指令 最 后 一 个 字符 (‘b”，，“w’”，“1’ 或 ‘q’) 指 定 的 大 小 匹配 。 大 多 数 情况 
中 ，MOYV 指令 只 会 更 新 目的 操作 数 指 定 的 那些 寄存 器 字 节 或 内 存 位 置 。 唯 一 的 例外 是 
mov1l1 指令 以 寄存 器 作为 目的 时 ， 它 会 把 该 寄存 器 的 高 位 4 字 节 设置 为 0。 造 成 这 个 例外 的 
原因 是 x86-64 采用 的 惯例 ， 即 任何 为 寄存 器 生成 32 位 值 的 指令 都 会 把 该 寄存 器 的 高 位 部 
分 置 成 0。 

下 面 的 MOV 指令 示例 给 出 了 源 和 目的 类 型 的 五 种 可 能 的 组 合 。 记 住 ， 第 一 个 是 源 操 
作 数 ， 第 二 个 是 目的 操作 数 : 


1 movl] $Ox4050 , peax Immediate--Register, 4 bytes 
2 movw %bp,%sp Register--Register, 2 bytes 
3 movb (%rdi,%rcx) ,hal Memory--Register, 1 byte 
4 movb $-17, (rsp) Immediate--Memory, 1 byte 
5 movg hrax,—-12(%rbp) Register--Memory, 8 bytes 


图 3-4 中 记录 的 最 后 一 条 指令 是 处 理 64 位 立即 数 数据 的 。 常 规 的 movq 指令 只 能 以 表 
示 为 32 位 补 码 数字 的 立即 数 作 为 源 操 作 数 ， 然 后 把 这 个 值 符号 扩展 得 到 64 位 的 值 ， 放 到 
目的 位 置 。movabsq 指令 能 够 以 任意 64 位 立即 数值 作为 源 操作 数 ， 并 且 只 能 以 寄存 需 作 
为 目的 。 

图 3-5 和 图 3-6 记录 的 是 两 类 数据 移动 指令 ， 在 将 较 小 的 源 值 复制 到 较 大 的 目的 时 使 
用 。 所 有 这 些 指令 都 把 数据 从 源 ( 在 寄存 器 或 内 存 中 ) 复 制 到 目的 寄存 器 。MOVZ 类 中 的 
指令 把 目的 中 剩余 的 字 节 填充 为 0， 而 MOVS 类 中 的 指令 通过 符号 扩展 来 填充 ， 把 源 操 作 
的 最 高 位 进行 复制 。 可 以 观察 到 ， 每 条 指令 名 字 的 最 后 两 个 字符 都 是 大 小 指示 符 : 第 一 个 
字符 指定 源 的 大 小 ， 而 第 二 个 指明 目的 的 大 小 。 正 如 看 到 的 那样 ， 这 两 个 类 中 每 个 都 有 三 
条 指令 ， 包 括 了 所 有 的 源 大 小 为 1 个 和 2 个 字 节 、 目 的 大 小 为 2 个 和 4 个 的 情况 ， 当 然 只 
考虑 目的 大 于 源 的 情况 。 


MOVZ Si 歇 R<- 零 扩展 (S) 以 零 扩 展 进行 传送 


movzbw 将 做 了 零 扩 展 的 字 节 传送 到 字 


movzbl 将 做 了 零 扩 展 的 字 节 传送 到 双 字 
movzwl 将 做 了 零 扩展 的 字 传 送 到 双 字 
movzbq 将 做 了 零 扩 展 的 字 节 传送 到 四 字 
movzwq 将 做 了 零 扩 展 的 字 传 送 到 四 字 


图 3-5 和 零 扩 展 数据 传送 指令 。 这 些 指 令 以 寄存 顺 或 内 存 地 址 作为 源 ， 以 寄存 器 作为 目的 


movsbw 将 做 了 符号 扩展 的 字 节 传送 到 字 
movsbl 将 做 了 符号 扩展 的 字 节 传送 到 双 字 





movswl 将 做 了 符号 扩展 的 字 传 送 到 双 字 
movsbq 将 做 了 符号 扩展 的 字 节 传送 到 四 字 
movswq 将 做 了 符号 扩展 的 字 传 送 到 四 字 
movslq 将 做 了 符号 扩展 的 双 字 传送 到 四 字 
cltq srax < 符号 扩展 (Seax) 把 seax 符号 扩展 到 %rax 





图 3-6 符号 扩展 数据 传送 指令 。MOVS 指令 以 寄存 器 或 内 存 地 址 作为 源 ， 以 寄存 器 
作为 目的 。cltaqa 指令 只 作用 于 寄存 器 $eax 和 s%rax 
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EE 理解 数据 传送 如 何 改 变 目 的 寄存 器 
正如 我 们 描述 的 那样 ， 关 于 数据 传送 指令 是 否 以 及 如 何 修改 目的 寄存 器 的 高 位 字 节 
有 两 种 不 同 的 方法 。 下 面 这 段 代 码 序 列 会 说 明 其 差别 : 
movabsq $0x0011223344556677 ， MTrax %rax = 0011223344556677 


2 movb $=1 Wal Yrax = 00112233445566FF 
3 moOVW $-1, %ax Yrax = 001122334455FFFF 
4 movl $-1, heax Yrax = O0000000FFFFFFFF 
5 movqg $-1, hrax Yrax = FFFFFFFFFFFFFFFF 


在 接 下 来 的 讨论 中 ， 我 们 使 用 十 六 进 制 表 示 。 在 这 个 例子 中 ， 第 1 行 的 指令 把 寄存 器 $ 

rax 初始 化 为 位 模式 0011223344556677。 剩 下 的 指令 的 源 操作 数值 是 立即 数值 一 1]。 回 想 一 
1 的 十 六 进 制 表示 形 如 FF"…F， 这 里 下 的 数量 是 表述 中 字 节 数量 的 两 倍 。 因 此 movb 指令 

(第 2 行 ) 把 s$rax 的 低位 字 节 设置 为 FF， 而 movw 指令 (第 3 行 ) 把 低 2 位 字 节 设置 为 FFFF， 

剩 下 的 字 节 保持 不 变 。movl 指令 (第 4 行 ) 将 低 4 个 字 节 设置 为 FFFEFFFF， 同 时 把 高 位 14 

字 节 设置 为 00000000。 最 后 movq 指令 (第 5 行 ) 把 整个 寄存 器 设置 为 FFFFFFFFFFFFFFFF。 


注意 图 3-5 中 并 没有 一 条 明确 的 指令 把 4 字 贡 源 值 零 扩 展 到 8 字 节 目的 。 这 样 的 指令 
逻辑 上 应 该 被 命名 为 movzlq， 但 是 并 没有 这 样 的 指令 。 不 过 ， 这 样 的 数据 传送 可 以 用 以 
寄存 需 为 目的 的 movl 指令 来 实现 。 这 一 技术 利用 的 属性 是 ， 生 成 4 字 节 值 并 以 寄存 器 作 
为 目的 的 指令 会 把 高 4 字 节 置 为 0。 对 于 64 位 的 目标 ， 所 有 三 种 源 类 型 都 有 对 应 的 符号 扩 
展 传送 ， 而 只 有 两 种 较 小 的 源 类 型 有 零 扩 展 传送 。 

图 3-6 还 给 出 cltqa 指令 。 这 条 指令 没有 操作 数 : 它 总 是 以 寄存 器 $eax 作为 源 ,%rax 作 
为 符号 扩展 结果 的 目的 。 它 的 效果 与 指令 movs1d %eax, Srax 完全 一 致 ， 不 过 编码 更 紧凑 。 
区 所 练习 题 3.2 ”对 于 下 面 汇编 代码 的 每 一 行 ， 根 据 操作 数 ， 确定 适当 的 指令 后 级。( 例 

如 ，mov 可 以 被 重 写 成 movb、movw、movl 或 者 movd。) 


moV heax, (4rsp) 

moV _ (Wrax) , hdx 

moV_ $OxFF, %bl 

moV (%rsp,%rdx,4), %dl 
mov (rdx), Wrax 

mov Wdx, (Wrax) 


旁 注 字 节 传送 指令 比较 
下 面 这 个 示例 说 明了 不 同 的 数据 传送 指令 如 何 改 变 或 者 不 改变 目的 的 高 位 字 节 。 仔 细 观 
窜 可 以 发 现 ， 三 个 字 节 传送 指令 movb、movsbq 和 movzbq 之 间 有 细微 的 差别 。 示 例如 下 : 


1 movabsq $Ox0011223344556677,%rax Yrax = 0011223344556677 
2 movb $OxAA, %dl Yal “二 A# 

3 movb %dl,%al Yrax = 00112233445566A4 
4 movsbq %dl ,hrax Yrax = FFFFFFFFFFFFFFAA 
5 movzbq %dl ,%rax Yrax = 0000000000000044 


在 下 面 的 讨论 中 ， 所 有 的 值 都 使 用 十 六 进 制 表示 。 代 码 的 头 2 行将 寄存 器 $rax 和 %dl 
分 别 初始 化 为 0011223344556677 和 AA。 剩 下 的 指令 都 是 将 $rdx 的 低位 字 节 复制 到 %rax 
的 低位 字 节 。movb 指令 (第 3 行 ) 不 改变 其 他 字 节 。 根 据 源 字 节 的 最 高 位 ，movsbq 指令 (第 
4 行 ) 将 其 他 7 个 字 节 设 为 全 1 或 全 0。 由 于 十 六 进 制 A 表示 二 进 制 值 1010， 符 号 扩展 会 把 
高 位 字 节 都 设置 为 FF。movzbq 指令 (第 5 行 ) 总 是 将 其 他 7 个 字 节 全 都 设置 为 0。 
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记 纪 练习 题 3. 3 当 我 们 调用 汇编 器 的 时 候 ， 下 面 代 码 的 每 一 行 都 会 产生 一 个 错误 消息 。 
解释 每 一 行 都 是 哪里 出 了 错 。 
movb $OxF, (%ebx) 
mov] %rax, (%rsp) 
movw (%rax),4(%rsp) 
movb %al,%hsl 
movg %rax,$0Ox123 
movl] Weax, hrdx 
movb %si, 8(%rbp) 


3.4.3 数据 传送 示例 
作为 一 个 使 用 数据 传送 指令 的 代码 示例 ， 考 虑 图 3-7 中 所 示 的 数据 交换 函数 ， 既 有 C 
代码 ， 也 有 GCC 产生 的 汇编 代码 。 


long exchange(long *xp, 


‘ 


long Xx = *xp; 


*Xxp = y; 
return x; 





a& ) C 语 言 代码 


long exchange(long *xp, long y) 
Xp in hrdi, y in prsi 
exchange: 


movg (Wrd1i), Wrax Get x at xp. Set as return value. 
movg %rsi, (%rdi) Store y at xp. 
ret Return. 





b ) 汇编 代码 
图 3-7 ”exchange 函数 的 C 语言 和 汇编 代码 。 寄 存 器 srdi 和 srsi 分 别 存 放 参 数 xp 和 y 


如 图 3-7b 所 示 ， 郴 数 exchange 由 三 条 指令 实现 : 两 个 数据 传送 (movq)， 加 上 一 条 
返回 函数 被 调用 点 的 指令 (Cret)。 我 们 会 在 3.7 节 中 讲述 函数 调用 和 返回 的 细节 。 在 此 之 
前 ， 知 道 参 数 通过 寄存 震 传 递 给 盟 数 就 足够 了 了。 我 们 对 汇编 代码 添加 注释 来 加 以 说 明 。 郴 
数 通 过 把 值 存储 在 寄存 器 $rax 或 该 寄存 器 的 某 个 低位 部 分 中 返回 。 

当 过 程 开 始 执行 时 ， 过 程 参 数 xp 和 y 分 别 存储 在 寄存 器 $rdi 和 s%rsi 中 。 然 后 ， 指 
令 2 从 内 存 中 读 出 zx， 把 它 存放 到 寄存 器 srax 中 ， 直 接 实 现 了 C 程序 中 的 操作 x=*xp。 稍 
后 ， 用 寄存 器 srax 从 这 个 函数 返回 一 个 值 ， 因 而 返回 值 就 是 x。 指 令 3 将 y 写 人 到 寄存 
器 srdi 中 的 xp 指向 的 内 存 位 置 ， 直 接 实现 了 操作 *xp=y。 这 个 例子 说 明了 如 何 用 MOV 
指令 从 内 存 中 读 值 到 寄存 天 ( 第 2 行 )， 如 何 从 寄存 硕 写 到 内 存 ( 第 3 行 )。 

关于 这 段 汇编 代码 有 两 点 值得 注意 。 首 先 ， 我 们 看 到 C 语言 中 所 谓 的 “指针 ”其 实 就 
是 地 址 。 间 接 引 用 指针 就 是 将 该 指针 放 在 一 个 寄存 器 中 ， 然 后 在 内 存 引 用 中 使 用 这 个 寄存 
器 。 其 次 ， 像 x 这 样 的 局 部 变量 通常 是 保存 在 寄存 器 中 ， 而 不 是 内 存 中 。 访 问 寄 存 器 上 比 访 
问 内 存 要 快 得 多 。 
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民 s 练习 题 3. 4 假设 变量 sp 和 dp 被 声明 为 类 型 
src_t *sp; 


dest_t *dp; 


这 里 src 七 和 dest 七 是 用 typedef 声 明 的 数据 类 型 。 我 们 想 使 用 适当 的 数据 传送 指 
令 来 实现 下 面 的 操作 


*dp = (dest_t) *sp; 


假设 sp 和 dp 的 值 分 别 存储 在 寄存 器 srdi 和 %rsi 中 。 对 于 表 中 的 每 个 表 项 ， 给 出 
实现 指定 数据 传送 的 两 条 指令 。 其 中 第 一 条 指令 应 该 从 内 存 中 读数 ， 做 适当 的 转换 ， 并 
设置 寄存 器 %rax 的 适当 部 分 。 然 后 ， 第 二 条 指令 要 把 %rax 的 适当 部 分 写 到 内 存 。 在 这 
两 种 情况 中 ， 寄 存 器 的 部 分 可 以 是 Srax、%Seax、%ax 或 $al， 两 者 可 以 互 不 相同 。 

记 住 ， 当 执行 强制 类 型 转换 既 涉 及 大 小 变化 又 涉及 C 语言 中 符号 变化 时 ， 操 作 应 
该 先 改 变 大 小 (2. 2.6 节 )。 


long mOVG ($rdi),$Srax 
movg $$rax, ($rsi) 

char 

char unsigned 

unsigned char long 

Rn 起 char 


unsigned unsigned char 


char short 


村 / 必 指 针 的 一 些 示例 

函数 exchange( 图 3-7a) 提 供 了 一 个 关于 C 语 言 中 指针 使 用 的 很 好 说 明 。 参 数 xp 是 
一 个 指向 long 类 型 的 整数 的 指针 ， 而 YY 是 一 个 long 类 型 的 整数 。 语 种 

long Xx = *xp; 





表示 我 们 将 读 存储 在 xp 所 指 位 置 中 的 值 ， 并 将 它 存 放 到 名 字 为 x 的 局 部 变量 中 。 这 个 
读 操 作 称 为 指针 的 间接 引用 (pointer dereferencing)，C 操作 符 * 执行 指针 的 间接 引用 。 
语句 
ID = 其 
正好 相反 一 一 它 将 参数 y 的 值 写 到 xp 所 指 的 位 置 。 这 也 是 指针 间接 引用 的 一 种 形式 (所 
以 有 操作 符 * )， 但 是 它 表 明 的 是 一 个 写 操 作 ， 因 为 它 在 赋值 语句 的 左边 。 
下 面 是 调用 exchange 的 一 个 实际 例子 : 
long a = 4; 


long b = exchange(&a, 3); 
printf("a = %ld, b = %ld\n", a, b); 
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这 段 代码 会 打印 出 : 

a=3,b=4 

C 操作 符 &( 称 为 “ 取 址 ”操作 符 ) 创 建 一 个 指针 ， 在 本 例 中 ， 该 指针 指向 保存 局 部 变 
量 a 的 位 置 。 然 后 ， 函 数 exchange 将 用 3 履 盖 存储 在 a 中 的 值 ， 但 是 返回 原来 的 值 4 作 
为 函数 的 值 。 注 意 如 何 将 指针 传递 给 exchange， 它 能 修改 存在 菜 个 远 处 位 置 的 数据 。 


证 强 练习 题 3.5 已 知 信息 如 下 。 将 一 个 原型 为 
void decodeli(long *xp, long *yp, long *Zzp); 
的 函数 编译 成 汇编 代码 ， 得 到 如 下 代码 : 


void decodel (Jong *xp, long *yp, long *zp) 
Xp iD rdi, yp in Krsi, Zp in Yrdx 


decodel: 

movg (%rdi), %r8 
movg (hrsi), hrcex 
movg (hrdx) , hrax 
movqg hIB,. (NLB4) 
movVq hrcx, (hrdx) 
movg hrax, (hrdi) 
ret 


参数 xp、yp 和 zp 分别 存 储 在 对 应 的 寄存 器 %rdi、%rsi 和 s%rdx 中 。 
请 写 出 等 效 于 上 面 汇编 代码 的 decodel 的 C 人 代码 。 


3.4.4 压 入 和 弹出 栈 数据 


最 后 两 个 数据 传送 操作 可 以 将 数据 压 人 程序 栈 中 ， 以 及 从 程序 栈 中 弹出 数据 ， 如 图 3-8 
所 示 。 正 如 我 们 将 看 到 的 ， 栈 在 处 理 过 程 调 用 中 起 到 至 关 重 要 的 作用 。 栈 是 一 种 数据 结 
构 ， 可 以 添加 或 者 删除 值 ， 不 过 要 遵循“ 后 进 先 出 ”的 原则 。 通 过 push 操作 把 数据 压 人 
栈 中 ， 通 过 pop 操作 删除 数据 ; 它 具 有 一 个 属性 : 弹出 的 值 永 远 是 最 近 被 压 入 而 且 仍 然 在 
栈 中 的 值 。 栈 可 以 实现 为 一 个 数组 ， 总 是 从 数组 的 一 端 插 入 和 删除 元 素 。 这 一 端 被 称 为 栈 
顶 。 在 x86-64 中 ， 程 序 栈 存放 在 内 存 中 某 个 区 域 。 如 图 3-9 所 示 ， 栈 向 下 增长 ， 这 样 一 
来 ， 栈 顶 元 素 的 地 址 是 所 有 栈 中 元 素 地 址 中 最 低 的 。( 根 据 惯例 ， 我 们 的 栈 是 倒 过 来 画 的 ， 
栈 “ 顶 ”在 图 的 底部 .) 栈 指针 S$rsp 保存 着 栈 顶 元 素 的 地 址 。 


RL srsp|l<-RL srsp]—8; 

MLRLsrsp]j]< 一 S 将 四 字 压 人 栈 
D<-MLRLsrspjj 
R[Lsrsp]<-R[srsp] 十 8 






















将 四 字 弹 出 栈 





图 3-8 入 栈 和 出 栈 指令 
pushq 指令 的 功能 是 把 数据 压 人 到 栈 上 ， 而 popg 指 令 是 弹出 数据 。 这 些 指 令 都 只 有 





一 个 操作 数 压 人 的 数据 源 和 弹出 的 数据 目的 。 
将 一 个 四 字 值 压 入 栈 中 ， 首 先 要 将 栈 指针 减 8， 然 后 将 值 写 到 新 的 栈 顶 地 址 。 因 此 ， 
指令 pushq szrbp 的 行为 等 价 于 下 面 两 条 指令 ， 
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subq $8,%rsp Decrement stack pointer 
movg hrbp, (%rsp) Store Yrtp on stack 


它们 之 间 的 区 别 是 在 机 器 代码 中 pushq 指令 编码 为 1 个 字 节 ， 而 上 面 那 两 条 指令 一 共 需 要 
8 个 字 节 。 图 3-9 中 前 两 栏 给 出 的 是 ， 当 srsp 为 0x108,%rax 为 0x123 时 ， 执 行 指令 
pushq S$rax 的 效果 。 首 先 srsp 会 减 8， 得 到 0x100， 然 后 会 将 0x123 存放 到 内 存 地 址 
0x100 处 。 


最 初 pushq %rax popdq %rdx 


wl 0 wl 
ET 


地 址 
| 


0x108 0x108 


酚 “ 顶 ” 0x100 0x123 


0x108 
栈 “页 ” 





图 3-9 栈 操作 说 明 。 根 据 惯 例 ， 我 们 的 栈 是 倒 过 来 画 的 ， 因 而 栈 “ 顶 ”在 底部 。x86-64 中 ， 
栈 回 低地 址 方向 增长 ， 所 以 压 栈 是 减 小 栈 指针 (寄存 器 srsp) 的 值 ， 并 将 数据 存放 到 
内 存 中 ， 而 出 栈 是 从 内 存 中 读数 据 ， 并 增加 栈 指 针 的 值 


弹出 一 个 四 字 的 操作 包括 从 栈 项 位 置 读 出 数据 ， 然 后 将 栈 指针 加 8。 因此， 指令 popd 
srax 等 价 于 下 面 两 条 指令 : 


movgd (%rsp) ,hrax Read hrax from stack 
addq $8,%rsp Increment stack pointer 


图 3-9 的 第 三 栏 说 明 的 是 在 执行 完 pushq 后 立即 执行 指令 popqg %rdx 的 效果 。 先 从 内 
存 中 读 出 值 0x123， 再 写 到 寄存 器 %rdx 中 ， 然 后 ， 寄 存 器 %rsp 的 值 将 增加 回 到 0x108。 
如 图 中 所 示 ， 值 0x123 仍然 会 保持 在 内 存 位 置 0x100 中 ， 直 到 被 覆盖 (例如 被 另 一 条 人 栈 
操作 覆盖 ) 。 无 论 如 何 ,%rsp 指向 的 地 址 总 是 栈 顶 。 

因为 栈 和 程序 代码 以 及 其 他 形式 的 程序 数据 都 是 放 在 同一 内 存 中 ， 所 以 程序 可 以 用 标 
准 的 内 存 寻 址 方法 访问 栈 内 的 任意 位 置 。 人 例如， 假设 栈 顶 元 素 是 四 字 ， 指 令 movq 8 (% 

rsp)v%rdx 会 将 第 二 个 四 字 从 栈 中 复制 到 寄存 器 %rdx。 


3.5 算术 和 逻辑 操作 


图 3-10 列 出 了 x86-64 的 一 些 整数 和 逻辑 操作 。 大 多 数 操作 都 分 成 了 指令 类 ， 这 些 指 
令 类 有 各 种 带 不 同 大 小 操作 数 的 变种 (只 有 leaq 没有 其 他 大 小 的 变种 )。 例 如 ， 指 令 类 
ADD 由 四 条 加 法 指令 组 成 : addb、addw、addl 和 addq， 分 别 是 字 节 加 法 、 字 加 法 、 双 
字 加 法 和 四 字 加 法 。 事 实 上 ， 给 出 的 每 个 指令 类 都 有 对 这 四 种 不 同 大 小 数据 的 指令 。 这 些 
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操作 被 分 为 四 组 : 加 载 有 效 地 址 、 一 元 操作 、 二 元 操作 和 移 位 。 二 元 操作 有 两 个 操作 数 ， 
而 一 元 操作 有 一 个 操作 数 。 这 些 操作 数 的 描述 方法 与 3.4 节 中 所 讲 的 一 样 。 


左 移 ( 等 同 于 SAL ) 
算术 右 移 
逻辑 右 移 





图 3-10 ”整数 算术 操作 。 加 载 有 效 地 址 (leaq) 指 令 通 常用 来 执行 简单 的 算术 操作 。 其 余 的 指令 
是 更 加 标准 的 一 元 或 二 元 操作 。 我们 用 >> ,和 >> :来 分 别 表示 算术 右 移 和 逻辑 右 移 。 
注意 ， 这 里 的 操作 顺序 与 ATT 格式 的 汇编 代码 中 的 相反 


3.5.1 加 载 有 效 地 址 


加 载 有 效 地 址 (load effective address) 指 令 leaqg 实际 上 是 movg 指令 的 变形 。 它 的 指 
令 形 式 是 从 内 存 读数 据 到 寄存 器 ， 但 实际 上 它 根本 就 没有 引用 内 存 。 它 的 第 一 个 操作 数 看 
上 去 是 一 个 内 存 引 用 ， 但 该 指令 并 不 是 从 指定 的 位 置 读 和 数据， 而 是 将 有 效 地 址 写 入 到 目 
的 操作 数 。 在 图 3-10 中 我 们 用 C 语言 的 地 址 操作 符 gs 说明 这 种 计算 。 这 条 指令 可 以 为 后 
面 的 内 存 引 用 产生 指针 。 男 外 ， 它 还 可 以 简洁 地 描述 普通 的 算术 操作 。 例 如 ， 如 果 寄 存 
器 srdx 的 值 为 x， 那么 指令 leaq 7 (%rdx,%rdx, 4),%rax 将 设置 寄存 器 %rax 的 值 为 5z 十 
7。 编 译 器 经 常 发 现 leaq 的 一 些 灵 活用 法 ， 根 本 就 与 有 效 地 址 计算 无 关 。 目 的 操作 数 必须 
是 一 个 寄存 器 。 

为 了 说 明 leagqg 在 编译 出 的 代码 中 的 使 用 ， 看 看 下 面 这 个 C 程序 : 


long scale(long x, long y, long z) 1 
long t =x+4*y+ 1i2* 2z; 
return t; 


} 
编译 时 ， 该 函数 的 算术 运算 以 三 条 leaq 指令 实现 ， 就 像 右 边 注 释 说 明 的 那样 : 


long scale(long x, long y, long 2z) 


¥ .in Srdi, y in Wrsi, Zz in hrdx 


scale: 
leaqg (Wrdi,%rsi,4), %rax X + d*y 
leaqg (ChEdx EEC dz Z + 2xZ = 3#*Z 
leaqg (%rax, hrdx,4), hrax (X+4#y) + dA#(3#Z) = xX + A#y + 12#Z 


ret 
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leaq 指令 能 执行 加 法 和 有 限 形 式 的 乘法 ， 在 编译 如 上 简单 的 算术 表达 式 时 ， 是 很 有 用 处 的 。 
襄 事 练习 题 3. 6 假设 寄存 器 srax 的 值 为 x,%rcx 的 值 为 y。 填 写 下 表 ， 指 明 下 面 每 条 汇 
编 代码 指令 存储 在 寄存 器 srdx 中 的 值 : 


aaa | 
ie Re | 
ae ea | 
ee raw | 
1 
EE 








leaqg OxA(,Srcx,4),$Srdx 


leag 9(%rax, Srcx,2),%rdx 






证 弄 练习 题 3.7 考虑 下 面 的 代码 ， 我 们 省 略 了 被 计算 的 表达 式 : 


long scale2(long x, long y, long Z) 1 
long t= | : 





return t; 


用 GCC 编译 实际 的 函数 得 到 如 下 的 汇编 代码 : 


long scale2(long x, long y, long Zz) 


X ID Yrdi, y in Yrsi, z in Yrdx 


scale2: 
leaqg (Wrdi,%rdi,4), %rax 
leaqg (Wrax,%rsi,2), %rax 
leaqg (Wrax,%rdx,8), %rax 
ret 


填写 出 C 代码 中 缺失 的 表达 式 。 


3.5.2 一 元 和 二 元 操作 

第 二 组 中 的 操作 是 一 元 操作 ， 只 有 一 个 操作 数 ， 既 是 源 又 是 目的 。 这 个 操作 数 可 以 是 
一 个 寄存 器 ， 也 可 以 是 一 个 内 存 位置 。 比 如 说 ， 指 令 incq(srsp) 会 使 栈 顶 的 8 字 节 元 素 
加 1。 这 种 语法 让 人 想起 C 语言 中 的 加 1 运算 符 ( 十 十 ) 和 减 1 运算 符 ( 一 一 )。 

第 三 组 是 二 元 操作 ， 其 中 ， 第 二 个 操作 数 既 是 源 又 是 目的 。 这 种 语法 让 人 想起 C 语言 
中 的 赋值 运算 符 ， 例 如 x-=y。 不 过 ， 要 注意 ， 源 操作 数 是 第 一 个 ， 目 的 操作 数 是 第 二 个 ， 
对 于 不 可 交换 操作 来 说 ， 这 看 上 去 很 奇特 。 例 如 ， 指 令 subq S$rax,%rdx 使 寄存 器 %rdx 的 
值 减 去 srax 中 的 值 。( 将 指令 解读 成 “从 srdx 中 减 去 srax” 会 有 所 帮助 。) 第 一 个 操作 数 
可 以 是 立即 数 、 寄 存 器 或 是 内 存 位 置 。 第 二 个 操作 数 可 以 是 寄存 器 或 是 内 存 人 位置。 注意， 
当 第 二 个 操作 数 为 内 存 地 址 时 ， 处 理 器 必须 从 内 存 读 出 值 ， 执 行 操作 ， 再 把 结果 写 回 
内 存 。 
是 马 练习 题 3.8 假设 下 面 的 值 存放 在 指定 的 内 存 地 址 和 寄存 器 中 : 
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填写 下 表 ， 给 出 下 面 指令 的 效果 ， 说 明 将 被 更 新 的 寄存 器 或 内 存 位 置 ， 以 及 得 到 
的 值 : 





wf | | 
sare | | | 
oo 一 
| 

| 本 国 交 国 国 汪 
“| | 









incag 16 ($$rax) 
subq Srdx, Srax 


3.5.3 移 位 操作 


最 后 一 组 是 移 位 操作 ， 先 给 出 移 位 量 ， 然 后 第 二 项 给 出 的 是 要 移 位 的 数 。 可 以 进行 算 
术 和 逻辑 右 移 。 移 位 量 可 以 是 一 个 立即 数 ， 或 者 放 在 单字 节 寄 存 器 %cl 中 。( 这 些 指 令 很 
特别 ， 因 为 只 允许 以 这 个 特定 的 寄存 器 作为 操作 数 。) 原 则 上 来 说 ，1 个 字 节 的 移 位 量 使 得 
移 位 量 的 编码 范围 可 以 达到 2 一 1 一 255。x86-64 中 ， 移 位 操作 对 到 位 长 的 数据 值 进行 操 
作 ， 移 位 量 是 由 scl 寄存 器 的 低 im 位 决定 的 ， 这 里 2"= 二 w。 高 位 会 被 忽略 。 所 以 ， 例 如 当 
寄存 器 gcl 的 十 六 进 制 值 为 0xFF 时 ， 指 令 salb 会 移 7 位 ，salw 会 移 15 位 ，sall 会 移 
31 位 ， 而 salqg 会 移 63 位 。 

如 图 3-10 所 示 ， 左 移 指令 有 两 个 名 字 : SAL 和 SHL。 两 者 的 效果 是 一 样 的 ， 都 是 将 
右边 填 上 0。 右 移 指 令 不 同 ，SAR 执行 算术 移 位 ( 填 上 符号 位 )， 而 SHR 执行 逻辑 移 位 ( 填 
上 0) 。 移 位 操作 的 目的 操作 数 可 以 是 一 个 寄存 器 或 是 一 个 内 存 位 置 。 图 3-10 中 用 >>, ( 算 
术 ) 和 >>. (逻辑) 来 表示 这 两 种 不 同 的 右 移 运 算 。 

训 训 练习 题 3.9 假设 我 们 想 生 成 以 下 C 函数 的 汇编 代码 : 

long shift_left4_rightn(long x, long n) 


{ 
X <<= 4; 
X >>= 1; 
return x; 
} 


下 面 这 段 汇 编 代 码 执行 实际 的 移 位 ， 并 将 最 后 的 结果 放 在 寄存 器 %$rax 中 。 此 处 
省 略 了 两 条 关键 的 指令 。 参 数 X 和 nm 分 别 存 放 在 寄存 器 %rdi 和 %rsi 中 。 


Jong shift_left4_rightn(long XxX, long n) 
x ID prdi, n in hrsi 
Shift_left4_rightn: 





movq Rradt, Wrax Get x 
下 于 XxX <<= 长 
movl Wesi, Wecx Get n (4 bytes) 
根据 右边 的 注释 ， 填 出 缺失 的 指令 。 请 使 用 算术 右 移 操作 。 
3.5.4 讨论 


我 们 看 到 图 3-10 所 示 的 大 多 数 指令 ， 既 可 以 用 于 无 符号 运算 ， 也 可 以 用 于 补 码 运算 。 
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只 有 右 移 操作 要 求 区 分 有 符号 和 无 符号 数 。 这 个 特性 使 得 补 码 运算 成 为 实现 有 符号 整数 运 
算 的 一 种 比较 好 的 方法 的 原因 之 一 ， 
图 3-11 给 出 了 一 个 执行 算术 操作 的 函数 示例 ， 以 及 它 的 汇编 代码 。 参 数 x、Y 和 z 初 
始 时 分 别 存 放 在 内 存 %rdi、%rsi 和 srdx 中 。 汇 编 代码 指令 和 C 源 代 码 行 对 应 很 紧密 。 第 2 
行 计算 x^y 的 值 。 指 令 3 和 4 用 leaq 和 移 位 指令 的 组 合 来 实现 表达 式 z* 48。 第 5 行 计 
算 tl 和 0x0FOFOFOFE 的 AND 值 。 第 6 行 计 算 最 后 的 减法 。 由 于 减法 的 目的 寄存 闫 是 
rax， 上 图 数 会 返回 这 个 值 。 


long arith(long x, long y, long 2z) 
{ 


long t1 
long t2 


~ y; 
Z * 48; 

ti & OxOFOFOFOF; 
bb 起 


long t3 
long t4 
return t4; 





a ) C 语 言 代 码 


long arith(long xX, long y, long 2) 
x in hrdi, y in hrsi, 2 in hrdx 
arith: 

Xxorqg Wrsis Xrdi 

leaq (Xrdx, hrdx,2), hrax 


salqg $4, hrax t2 = 16 * (3*2z) = 48*z 
andl $252645135,，%Wedi t3 = tl & OxOFOFOFOF 
subq hrdi, hrax Return t2 - t3 

ret 





b ) 汇编 代码 
图 3-11 算术 运算 函数 的 C 语言 和 汇编 代码 
在 图 3-11 的 汇编 代码 中 ， 寄 存 器 %rax 中 的 值 先 后 对 应 于 程序 值 3*z、z* 48 和 tt 上 4( 作 
为 返回 值 ) 。 通 常 ， 编 译 需 产生 的 代码 中 ， 会 用 一 个 寄存 占 存 放 多 个 程序 值 ， 还 会 在 寄存 


髓 之 间 传 送 程 序 值 。 
杷 SN 练习 题 3. 10 下面 的 函数 是 图 3-11a 中 函数 一 个 变种 ， 其 中 有 些 表达 式 用 空格 替代 : 


long arith2(long x, long y, long 2z) 


‘ 
long ti1 = 3 
long t2 = = 
long t3 = 和 
long t4 = 有 
return t4; 

} 


实现 这 些 表达 式 的 汇编 代码 如 下 : 
long aritph2(Iong x, long y, long 2) 


EX ln AI Yin Mai, gE mn dx 
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arith2: 

orq Wrsi, hrdi 

Sarq $3, hrdi 

notq rdi 

movg %rdx, hrax 

Subq Wrdi, hrax 

ret 

基于 这 些 汇 编 代 码 ， 填 写 C 语言 代码 中 缺失 的 部 分 。 
六 到 练习 题 3. 11 常常 可 以 看 见 以 下 形式 的 汇编 代码 行 : 

XOTQq hrdx,hrdx 


但 是 在 产生 这 段 汇编 代码 的 C 代 码 中 ， 并 没有 出 现 EXCLUSIVE-OR 操作 。 
A. 解释 这 条 特殊 的 EXCLUSIVE-OR 指令 的 效果 ， 它 实现 了 什么 有 用 的 操作 。 
B. 更 直接 地 表达 这 个 操作 的 汇编 代码 是 什么 ? 

C. 比较 同样 一 个 操作 的 两 种 不 同 实现 的 编码 字 节 长 度 。 


3. 5.5 特殊 的 算术 操作 


正如 我 们 在 2. 3 节 中 看 到 的 ， 两 个 64 位 有 符号 或 无 符号 整数 相 乘 得 到 的 乘积 需要 128 
位 来 表示 。x86-64 指令 集 对 128 位 (16 字 节 ) 数 的 操作 提供 有 限 的 支持 。 延 续 字 (2 字 节 )、 
双 字 (4 字 节 ) 和 四 字 (8 字 节 ) 的 命名 惯例 ，Intel 把 16 字 节 的 数 称 为 八字 (oct word)。 图 3-12 
描述 的 是 支持 产生 两 个 64 位 数字 的 全 128 位 乘积 以 及 整数 除法 的 指令 。 


imulqg 5 R[ Srdx|]: RL srax|l<*—SX R[ Sraxj 有 符号 全 乘法 
mulq S RLsrdx]j:，RLsraxj]<-SXRLsrax] 无 符号 全 乘法 


RLsrdx]: RLsraxj]< 符 号 扩展 (RLszraxj]) 转换 为 八字 
站 RL %rdxj<—R[%rdx]: RL%rax] mod S 
Ee RI srdx|]<—R| srdx|]: Ri Srax|~S 
R[ srdx|<-R[ %rdx|]: RL %rax|] mod S 
ee 
图 3-12 特殊 的 算术 操作 。 这 些 操 作 提 供 了 有 符号 和 无 符号 数 的 全 128 位 乘法 和 除法 。 
一 对 寄存 器 $rdx 和 s%rax 组 成 一 个 128 位 的 八字 


imulqg 指令 有 两 种 不 同 的 形式 。 其 中 一 种 ， 如 图 3-10 所 示 ， 是 IMUL 指令 类 中 的 一 
种 。 这 种 形式 的 imulg 指令 是 一 个 “ 双 操 作 数 ”乘法 指令 。 它 从 两 个 64 位 操作 数 产 生 一 
个 64 位 乘积 ， 实 现 了 2. 3.4 和 2.3.5 节 中 描述 的 操作 x 和 x*5。( 回 想 一 下 ， 当 将 乘积 截 
取 到 64 位 时 ， 无 符号 乘 和 补 码 乘 的 位 级 行为 是 一 样 的 。) 

此 外 ，x86-64 指令 集 还 提供 了 两 条 不 同 的 “ 单 操 作 数 ”乘法 指令 ， 以 计算 两 个 64 位 
值 的 全 128 位 乘积 一 个 是 无 符号 数 乘法 (mulg)， 而 男 一 个 是 补 码 乘法 (imulq)。 这 两 
条 指令 都 要 求 一 个 参数 必须 在 寄存 器 srax 中 ， 而 另 一 个 作为 指令 的 源 操 作 数 给 出 。 然 后 
乘积 存放 在 寄存 器 $rdx( 高 64 位) 和 8%rax( 低 64 位) 中 。 虽 然 imulg 这 个 名 字 可 以 用 于 两 
个 不 同 的 乘法 操作 ， 但 是 汇编 更 能 够 通过 计算 操作 数 的 数目 ,分辨 出 想 用 哪 条 指令 。 

下 面 这 段 C 代码 是 一 个 示例 ， 说 明了 如 何 从 两 个 无 符号 64 位 数字 x 和 y 生成 128 位 
的 乘积 : 
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#include <inttypes.h> 
typedef unsigned __int128 uint128_t; 


void store_uprod(uint128_t *dest, uint64 t x, uint64 t y) { 
*dest = x * (uint128_t) yi 

} 

在 这 个 程序 中 ， 我 们 显 式 地 把 x 和 y 声明 为 64 位 的 数字 ， 使 用 文件 inttypes.h 中 
声明 的 定义 ， 这 是 对 标准 C 扩展 的 一 部 分 。 不 幸 的 是 ， 这 个 标准 没有 提供 128 位 的 值 。 所 
以 我 们 只 好 依赖 GCC 提供 的 128 位 整数 支持 ， 用 名 字 int128 来 声明 。 代 码 用 typedef 
声明 定义 了 一 个 数据 类 型 uint128 t， 沿 用 的 inttypes.h 中 其 他 数据 类 型 的 命名 规律 。 
这 段 代码 指明 得 到 的 乘积 应 该 存放 在 指针 dest 指向 的 16 字 节 处 。 

GCC 生成 的 汇编 代码 如 下 : 


void store_uprod(uint128_t *dest, uint64_t x, uint64_t y) 
dest in hrdi, x iD Krsi, y ID frdx 


store_uprod.: 


| 

2 movdq hI, Xrax Copy x to multiplicand 

3 mulg hrdx Multiply by y 

+4 movqg “rax, (%rdi) Store lower 8 bytes at dest 

5 movg %rdx, 8(%rdi) Store upper 8 bytes at dest+8 
6 ret 


可 以 观察 到 ， 存 储 乘积 需要 两 个 movq 指令 : 一 个 存储 低 8 个 字 节 (第 4 行 )， 一 个 存 
储 高 8 个 字 节 (第 5 行 )。 由 于 生成 这 段 代 码 针 对 的 是 小 端 法 机 器 ， 所 以 高 位 字 节 存储 在 大 
地 址 ， 正 如 地 址 8(%rdi) 表 明 的 那样 。 

前 面 的 算术 运算 表 ( 图 3-10) 没 有 列 出 除法 或 取 模 操作 。 这 些 操作 是 由 单 操 作 数 除 法 指 
令 来 提供 的 ， 类 似 于 单 操作 数 乘 法 指令 。 有 符号 除法 指令 idivl 将 寄存 器 $rdx( 高 64 位 ) 
和 srax( 低 64 位 ) 中 的 128 位 数 作为 被 除数 ， 而 除数 作为 指令 的 操作 数 给 出 。 指 令 将 商 存 
储 在 寄存 器 srax 中 ， 将 余数 存储 在 寄存 器 srdx 中 。 

对 于 大 多 数 64 位 除法 应 用 来 说 ， 除 数 也 常常 是 一 个 64 位 的 值 。 这 个 值 应 该 存放 在 

rax 中 ,%rdx 的 位 应 该 设置 为 全 0( 无 符号 运算 ) 或 者 $rax 的 符号 位 (有 符号 运算 )。 后 面 这 
个 操作 可 以 用 指令 cqto 呈 来 完成 。 这 条 指令 不 需要 操作 数 一 一 它 隐 含 读 出 $rax 的 符号 位 ， 
并 将 它 复 制 到 %rdxz 的 所 有 位 。 

我 们 用 下 面 这 个 C 也 数 来 说 明 x86-64 如 何 实现 除法 ， 它 计算 了 两 个 64 位 有 符号 数 的 

商 和 余数 : 


void remdiv(long x, long y, 
long *qp, long *rp) { 


long q = x/y; 
long r = x%hy; 
Sq = 
*rp = 工 ; 
} 
该 函数 编译 得 到 如 下 汇编 代码 : 


日 在 Intel 的 文档 中 ， 这 条 指令 叫做 cqgo， 这 是 指令 的 ATT 格式 名 字 和 Intel 名 字 无 关 的 少数 情况 之 一 。 
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void remdiv(long XxX, long y; long *qp, long *rp) 


x in hrdi, y in %rsi, gp in %rdx, rp in hrcx 


1 remdiv: 

2 moVq brdx， %r8 Copy 9P 

3 moVdq rd Arax Move x to lower 8 bytes of dividend 

4 cqto Sign-~extend to upper 8 bytes of dividend 
5 idivq  %rsi Divide by y 

6 movqg hrax, (%r8) Store quotient at qp 

7 movg GR (NECR) Store remainder at rp 

8 ret 


在 上 述 代码 中 ， 必 须 首 先 把 参数 ap 保存 到 男 一 个 寄存 器 中 (第 2 行 )， 因 为 除法 操作 
要 使 用 参数 寄存 器 $rdx。 接 下 来 ， 第 3 一 4 行 准备 被 除数 ， 复 制 并 符号 扩展 x。 除 法 之 后 ， 
寄存 器 srax 中 的 商 被 保存 在 qp( 第 6 行 )， 而 寄存 器 $rdx 中 的 余数 被 保存 在 rp( 第 7 行 )。 
无 符号 除法 使 用 divq 指令 。 通 常 ， 寄 存 器 $rdx 会 事先 设置 为 0。 
训 豆 练习 题 3. 12 考虑 如 下 函数 ， 它 计算 两 个 无 符号 64 位 数 的 商 和 余数 ， 
void uremdiv(unsigned long x, unsigned long y， 
unsigned long *qp, unsigned long *rp) { 
unsigned long q = x/y; 
unsigned long r = x%y; 


*qp, = 可 
*rp = I; 
修改 有 符号 除法 的 汇编 代码 来 实现 这 个 函数 。 
3.6 控制 


到 目前 为 止 ， 我 们 只 考虑 了 直线 代码 的 行为 ， 也 就 是 指令 一 条 接着 一 条 顺序 地 执行 。 
C 语言 中 的 某 些 结构 ， 比 如 条 件 语句 、 循 环 语句 和 分 支 语 句 ， 要 求 有 条 件 的 执行 ， 根 据 数 
据 测 试 的 结果 来 决定 操作 执行 的 顺序 。 机 器 代码 提供 两 种 基本 的 低级 机 制 来 实现 有 条 件 的 
行为 : 测试 数据 值 ， 然 后 根据 测试 的 结果 来 改变 控制 流 或 者 数据 流 。 

与 数据 相关 的 控制 流 是 实现 有 条 件 行为 的 更 一 般 和 更 常见 的 方法 ， 所 以 我 们 先 来 介绍 
它 。 通 常 ，C 语言 中 的 语句 和 机 器 代码 中 的 指令 都 是 按照 它们 在 程序 中 出 现 的 次 序 ， 顺 序 
执行 的 。 用 jump 指令 可 以 改变 一 组 机 器 代码 指令 的 执行 顺序 ，jump 指令 指定 控制 应 该 被 
传递 到 程序 的 某 个 其 他 部 分 ， 可 能 是 依赖 于 某 个 测试 的 结果 。 编 译 器 必须 产生 构建 在 这 种 
低级 机 制 基础 之 上 的 指令 序列 ， 来 实现 C 语言 的 控制 结构 。 

本 文 会 先 涉 及 实现 条 件 操作 的 两 种 方式 ， 然 后 描述 表达 循环 和 switch 语句 的 方法 。 


3.6.1 条 件 码 


除了 整数 寄存 器 ，CPU 还 维护 着 一 组 单个 位 的 条 件 码 (condition code) 寄 存 器 ， 它 们 
描述 了 最 近 的 算术 或 逻辑 操作 的 属性 。 可 以 检测 这 些 寄存 器 来 执行 条 件 分 支 指 令 。 最 常用 
的 条 件 码 有 : 

CE: 进位 标志 。 最 近 的 操作 使 最 高 位 产生 了 进位 。 可 用 来 检查 无 符号 操作 的 溢出 。 

ZF; 和 零 标 志 。 最 近 的 操作 得 出 的 结果 为 0。 

SF: 符号 标志 。 最 近 的 操作 得 到 的 结果 为 负数 。 

OF: 洲 出 标志 。 最 近 的 操作 导致 一 个 补 码 溢 出 一 一 正 洲 出 或 负 溢 出 。 
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比如 说 ， 假 设 我 们 用 一 条 ADD 指令 完成 等 价 于 C 表达 式 t=a+ b 的 功能 ， 这 里 变量 
a、b 和 tt 都 是 整 型 的 。 然 后 ， 根 据 下 面 的 C 表达 式 来 设置 条 件 码 : 


CF (unsigned) t < (unsigned) a 无 符号 溢出 
ZF ( 蕊 ==0) 零 

SF (t<0) 负数 

OF (a<0==b<0) && 化 <D 1=a<0) 有 符号 溢出 


leaq 指令 不 改变 任何 条 件 码 ， 因 为 它 是 用 来 进行 地 址 计算 的 。 除 此 之 外 ， 图 3-10 中 
列 出 的 所 有 指令 都 会 设置 条 件 码 。 对 于 逻辑 操作 ， 例 如 XOR， 进 位 标志 和 洲 出 标志 会 设 
置 成 0。 对 于 移 位 操作 ， 进 位 标志 将 设置 为 最 后 一 个 被 移出 的 位 ， 而 滋 出 标志 设置 为 0。 
INC 和 DEC 指令 会 设置 溢出 和 和 零 标 志 ， 但 是 不 会 改变 进位 标志 ， 至 于 原因 ， 我 们 就 不 在 
这 里 深入 探讨 了 。 

除了 图 3-10 中 的 指令 会 设置 条 件 


码 ， 还 有 两 类 指令 (有 8、16、32 和 64 ; 比较 
位 形式 )， 它 们 只 设置 条 件 码 而 不 改变 任 比较 字 节 
何其 他 寄存 器 ; 如 图 3-13 所 示 。CMP 指 比较 字 
令 根 据 两 个 操作 数 之 差 来 设置 条 件 码 。 比较 双 字 
除了 只 设置 条 件 码 而 不 更 新 目的 寄存 器 比较 四 字 
之 外 ，CMP 指令 与 SUB 指令 的 行为 是 

一 样 的 。 在 ATT 格式 中 ， 列 出 操作 数 的 测试 
顺序 是 相反 的 ， 这 使 代码 有 点 难 读 。 如 测试 字 节 
果 两 个 操作 数 相等 ， 这 些 指令 会 将 零 标 本 
志 设 置 为 1， 而 其 他 的 标志 可 以 用 来 确定 ee 


测试 四 字 





两 个 操作 数 之 间 的 大 小 关系 。TEST 指 
令 的 行为 与 AND 指令 一 样 ， 除 了 它们 只 图 3-13 ”比较 和 测试 指令 。 这 些 指 令 不 修改 任何 
设置 条 件 码 而 不 改变 目的 寄存 器 的 值 。 再 至 各 的 全 内 区 是 全 作 仙 
典型 的 用 法 是 ， 两 个 操作 数 是 一 样 的 (例如 ，testa srax,gsrax 用 来 检查 %$rax 是 负数 、 
零 ， 还 是 正 数 ) ， 或 其 中 的 一 个 操作 数 是 一 个 掩 码 ， 用 来 指示 哪些 位 应 该 被 测试 。 


3.6.2 访问 条 件 码 


条 件 码 通常 不 会 直接 读 取 ， 常 用 的 使 用 方法 有 三 种 : 1) 可 以 根据 条 件 码 的 某 种 组 合 ， 
将 一 个 字 节 设置 为 0 或 者 1，2) 可 以 条 件 跳 转 到 程序 的 某 个 其 他 的 部 分 ，3) 可 以 有 条 件 地 
传送 数据 。 对 于 第 一 种 情况 ， 图 3-14 中 描述 的 指令 根据 条 件 码 的 某 种 组 合 ， 将 一 个 字 节 
设置 为 0 或 者 1。 我 们 将 这 一 整 类 指令 称 为 SET 指令 ; 它们 之 间 的 区 别 就 在 于 它们 考虑 的 
条 件 码 的 组 合 是 什么 ， 这 些 指 令 名 字 的 不 同 后 缀 指明 了 它们 所 考虑 的 条 件 码 的 组 合 。 这 些 
指令 的 后 缀 表示 不 同 的 条 件 而 不 是 操作 数 大 小 ， 了 解 这 一 点 很 重要 。 例 如 ， 指 令 setl 和 
setb 表示 “小 于 时 设置 (set less)” 和 “ 低 于 时 设置 (set below)”， 而 不 是 “设置 长 字 (set 
long word)” 和 “设置 字 节 (set byte)”。 

一 条 SET 指令 的 目的 操作 数 是 低位 单字 节 寄 存 器 元 素 ( 图 3-2) 之 一 ， 或 是 一 个 字 节 的 
内 存 位 置 ， 指 令 会 将 这 个 字 节 设置 成 0 或 者 1。 为 了 得 到 一 个 32 位 或 64 位 结果 ， 我 们 必 
须 对 高 位 清 零 。 一 个 计算 C 语言 表达 式 a < b 的 典型 指令 序列 如 下 所 示 ， 这 里 a 和 都 是 
long 类 型 : 
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2 相等 / 零 
D < ~ZF 不 等 / 非 零 


DsSF 负数 
D <*— ~SF 非 负 数 


setnle D < ~(SF ~ OF) & ~ZF 大 于 (有 符号 > ) 
setnl D < ~(SF ~ OF) 大 于 等 于 ( 有 符号 >= ) 
setnge D<-SF~OF 小 于 (有 符号 <) 
setng D + (SF* OF) | ZF 小 于 等 于 ( 有 符号 <= ) 


setnbe D <— ~CF & ~ZF 超过 (无 符号 >) 
setnb D < ~CF 超过 或 相等 ( 无 符号 >= ) 
setnae Ba 低 于 (无 符号 <) 
setna D <*-CF | ZF 低 于 或 相等 (无 符号 <= ) 


D 
D 
D 
D 
D 
D 
D 
D 
D 
D 
D 
D 





图 3-14 SET 指令 。 每 条 指令 根据 条 件 码 的 某 种 组 合 ， 将 一 个 字 节 设置 为 0 或 者 1。 
有 些 指 令 有 “ 同 义 名 ”， 也 就 是 同一 条 机 器 指令 有 别 的 名 字 


int comp(data_t a, data_t b) 


a in Yrdi, b in Yrsi 


1 comp: 

2 cmpq “resi Xdadi Compare a:b 

3 set 1 hal Set low-order byte of Yeax to 0 or 1 
4 movzbl %al, %eax Clear rest of Keax (and rest of %rax) 
5 ret 


注意 cmpq 指令 的 比较 顺序 (第 2 行 )。 虽 然 参 数列 出 的 顺序 先是 %rsi(pb) 再 是 $rdi(a)， 
实际 上 比较 的 是 a 和 bb。 还 要 记得 ， 正 如 在 3. 4. 2 节 中 讨论 过 的 那样 ，movzbl 指令 不 仅 会 
把 seax 的 高 3 个 字 市 清 零 ， 还 会 把 整个 寄存 器 srax 的 高 4 个 字 节 都 清 零 。 

某 些 底层 的 机 器 指令 可 能 有 多 个 名 字 ， 我 们 称 之 为 “ 同 义 名 (synonym)”。 比 如 说 ， 
setg( 表 示 “ 设 置 大 于 ”) 和 setnle( 表 示 “ 设 置 不 小 于 等 于 >) 指 的 就 是 同一 条 机 器 指令 。 
编译 器 和 反 汇 编 器 会 随意 决定 使 用 哪个 名 字 。 

虽然 所 有 的 算术 和 逻辑 操作 都 会 设置 条 件 码 ， 但 是 各 个 SET 命令 的 描述 都 适用 
的 情况 是 : 执行 比较 指令 ， 根 据 计 算 t 上 =a-b 设 置 条 件 码 。 更 具体 地 说 ， 假 设 c<、2 和 : 
分 别 是 变量 a、b 和 七 的 补 码 形式 表示 的 整数 ， 因 此 t= 二 a 一 ,5b5， 这 里 多 取决 于 a 和 6。 
的 大 小 。 

来 看 sete 的 情况 ， 即 “ 当 相 等 时 设置 (set when equal) ”指令 。 当 a= 二 b 时 ， 会 得 到 t= 二 0， 
因此 零 标 志 置 位 就 表示 相等 。 类 似 地 ， 考 虑 用 setl1， 即 “ 当 小 于 时 设置 (set when less)” 指 
令 ， 测试 一 个 有 符号 比较 。 当 没有 发 生 洲 出 时 (oF 设置 为 0 就 表明 无 溢出 )， 我 们 有 当 a 一 必 过 0 
时 a<=<6b,， 将 SF 设置 为 1 即 指明 这 一 点 ， 而 当 a 一 人 0 时 a 宇 b。， 由 SF 设置 为 0 指明 。 另 一 
方面 ， 当 发 生 溢出 时 ， 我 们 有 当 a 一 wb 记 0( 负 溢出 ) 时 a 二 5， 而 当 a 一 过 0( 正 溢出 ) 时 a 二 6。 
当 aa 一 时， 不 会 有 溢出 。 因 此 ， 当 oF 被 设置 为 1 时 ， 当 且 仅 当 SF 被 设置 为 0， 有 a 二 b。 将 
这 些 情况 组 合 起 来 ， 滋 出 和 符号 位 的 EXCLUSIVE-OR 提供 了 a<2 是 否 为 真 的 测试 。 其 他 的 
有 符号 比较 测试 基于 SF ^ OF 和 zF 的 其 他 组 合 。 

对 于 无 符号 比较 的 测试 ， 现 在 设 a 和 6 是 变量 a 和 bb 的 无 符号 形式 表示 的 整数 。 在 执 
行 计算 t=a-b 中 ， 当 a 一 6 二 0 时 ，CMP 指令 会 设置 进位 标志 ， 因 而 无 符号 比较 使 用 的 是 
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进位 标志 和 和 零 标志 的 组 合 。 

注意 到 机 需 代 码 如 何 区 分 有 符号 和 无 符号 值 是 很 重要 的 。 同 C 语言 不 同 ， 机 恬 代 码 不 
会 将 每 个 程序 值 都 和 一 个 数据 类 型 联系 起 来 。 相 反 ， 大 多 数 情 况 下 ， 机 费 代 码 对 于 有 符号 
和 无 符号 两 种 情况 都 使 用 一 样 的 指令 ， 这 是 因为 许多 算术 运算 对 无 符号 和 补 码 算术 都 有 一 
样 的 位 级 行为 。 有 些 情 况 需 要 用 不 同 的 指令 来 处 理 有 符号 和 无 符号 操作 ， 例 如 ， 使 用 不 同 
版 本 的 右 移 、 除 法 和 乘法 指令 ， 以 及 不 同 的 条 件 码 组 合 。 
区 练习 题 3. 13 考虑 下 列 的 C 语言 代码 : 


int comp(data_t a, data_t b) + 
return a COMP b; 





} 


它 给 出 了 参数 a 和 Db 之 间 比 较 的 一 般 形 式 ， 这 里 ， 参 数 的 数据 类 型 data 七 (通过 
typedef) 被 声明 为 表 3-1 中 列 出 的 某 种 整数 类 型 ， 可 以 是 有 符号 的 也 可 以 是 无 符号 的 
comp 通过 #adefine 来 定义 。 
假设 a 在 %rdi 中 某 个 部 分 ，b 在 %rsi 中 某 个 部 分 。 对 于 下 面 每 个 指令 序列 ， 确 

定 哪 种 数据 类 型 data 七 和 比较 COMP 会 导致 编译 器 产生 这 样 的 代码 。( 可 能 有 多 个 正 
确 答 案 ， 请 列 出 所 有 的 正确 答案 。) 
A. cmpl hesi, hedi 

setl hal 
B. cmpw Ra WA 

setge  %al 
C，cmpb NBL1 ， hall 

setbe %al 
D. cmpq Xrsis, Xrdi 

setne %a 


让 练习 题 3. 14 考虑 下 面 的 C 语言 代码 : 


int test(data t a) { 
return a TEST 0; 
} 


它 给 出 了 参数 a 和 0 之 间 比较 的 一 般 形式 ， 这 里 ， 我 们 可 以 用 typedef 来 声明 data 七 ， 
从 而 设置 参数 的 数据 类 型 ， 用 # define 来 声明 TEST， 从 而 设置 比较 的 类 型 。 对 于 下 
面 每 个 指令 序列 ， 确 定 哪 种 数据 类 型 data t 和 比较 TEST 会 导致 编译 器 产生 这 样 的 


代码 。( 可 能 有 多 个 正确 答案 ， 请 列 出 所 有 的 正确 答案 。) 
A. testq %rdi, %rdi 

setge %al 
B. testw %di, %di 


sete %al 

C, testb %dil, %dil 
seta hal 

D. testl %edi, %edi 
setne %al 


3.6.3 跳 转 指令 


正常 执行 的 情况 下 ， 指 令 按 照 它 们 出 现 的 顺序 一 条 一 条 地 执行 。 跳 转 (jump) 指 令 会 导 
致 执行 切换 到 程序 中 一 个 全 新 的 位 置 。 在 汇编 代码 中 ， 这 些 跳 转 的 目的 地 通常 用 一 个 标号 
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(label) 指 明 。 考 虑 下 面 的 汇编 代码 序列 (完全 是 人 为 编造 的 ): 


moVq $0,%rax Set Yrax to 0 

jmp .Ll Goto .L1 

moVq (%rax) ,hrdx Null pointer dereference (skipped) 
“ls 

Popq %rdx Jump target 


指令 jmp .L1 会 导致 程序 跳 过 movq 指令 ， 而 从 popq 指令 开始 继续 执行 。 在 产生 目标 
代码 文件 时 ， 汇 编 器 会 确定 所 有 带 标号 指令 的 地 址 ， 并 将 跳 转 目标 (目的 指令 的 地 址 ) 编 码 
为 跳 转 指令 的 一 部 分 。 

图 3-15 列举 了 不 同 的 跳 转 指 令 。jmp 指令 是 无 条 件 跳 转 。 它 可 以 是 直接 跳 转 ， 即 跳 转 
目标 是 作为 指令 的 一 部 分 编码 的 ; 也 可 以 是 间接 跳 转 ， 即 跳 转 目标 是 从 寄存 器 或 内 存 位 置 
中 读 出 的 。 汇 编 语 言 中 ， 直 接 跳 转 是 给 出 一 个 标号 作为 跳 转 目标 的 ， 例 如 上 面 所 示人 代码 中 
的 标号 “.L1”。 间 接 跳 转 的 写法 是 "* “后面 跟 一 个 操作 数 指示 符 ， 使 用 图 3-3 中 描述 的 内 
存 操作 数 格 式 中 的 一 种 。 举 个 例子 ， 指 令 


jmp *hrax 
用 寄存 器 srax 中 的 值 作为 跳 转 目 标 ， 而 指令 
jmp *(%rax) 


以 srax 中 的 值 作为 读 地 址 ， 从 内 存 中 读 出 跳 转 目标 。 


忠 转 和 人 件 | 撕 述 
Label 直接 跳 转 
*Operand | 间接 跳 转 
Label ZF 相等 / 堆 
Label j ~ZF 不 相等 / 非 零 
Label SF 负数 
Label ~SF 非 负 数 
Label j ~(SF ~ OF) & ~ZF 大 于 (有 符号 > ) 
Label j ~(SF ~ OF) 大 于 或 等 于 ( 有 符号 >= ) 
Label j SF ~ OF 小 于 (有 符号 < ) 
Label j (SF ~ OF) | ZF 小 于 或 等 于 ( 有 符号 <= ) 
Label j 超过 (无 符号 > ) 
Label ] 超过 或 相等 ( 无 符号 >= ) 
Label j 低 于 (无 符号 <) 
Label | 低 于 或 相等 (无 符号 <= ) 


图 3-15 jump 指令 。 当 跳 转 条 件 满 足 时 ， 这 些 指 令 会 跳 转 到 一 条 带 标 号 的 目的 地 。 
有 些 指令 有 “ 同 义 名 ”， 也 就 是 同一 条 机 器 指令 的 别名 
表 中 所 示 的 其 他 跳 转 指令 都 是 有 条 件 的 一 它们 根据 条 件 码 的 某 种 组 合 ， 或 者 跳 转 ， 
或 者 继续 执行 代码 序列 中 下 一 条 指令 。 这 些 指令 的 名 字 和 跳 转 条 件 与 SET 指令 的 名 字 和 
设置 条 件 是 相 匹 配 的 (参见 图 3-14)。 同 SET 指令 一 样 ， 一些 底层 的 机 器 指令 有 多 个 名 字 。 
条 件 跳 转 只 能 是 直接 跳 转 。 





3.6.4 跳 转 指令 的 编码 
虽然 我 们 不 关心 机 器 代码 格式 的 细节 ， 但 是 理解 跳 转 指令 的 目标 如 何 编码 ， 这 对 第 7 
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章 人 研究 链接 非常 重要 。 此 外 ， 它 也 能 帮助 理解 反 汇 编 句 的 输出 。 在 汇编 代码 中 ， 跳 转 目 标 
用 符号 标号 书写 。 汇 编 器 ， 以 及 后 来 的 链接 器 ， 会 产生 跳 转 目标 的 适当 编码 。 跳 转 指令 有 
几 种 不 同 的 编码 ， 但 是 最 常用 都 是 PC 相对 的 (PC-relative) 。 也 就 是 ， 它 们 会 将 目标 指令 
的 地 址 与 紧 跟 在 跳 转 指令 后 面 那 条 指令 的 地 址 之 间 的 差 作为 编码 。 这 些 地 址 偏 移 量 可 以 编 
码 为 1、2 或 4 个 字 节 。 第 二 种 编码 方法 是 给 出 “绝对 ”地 址 ， 用 4 个 字 节 直接 指定 目标 。 
汇编 器 和 链接 器 会 选择 适当 的 跳 转 目的 编码 。 

下 面 是 一 个 PC 相对 寻 址 的 例子 ， 这 个 函数 的 汇编 代码 由 编译 文件 branch. c 产生 。 它 
包含 两 个 跳 转 : 第 2 行 的 jmp 指令 前 向 跳 转 到 更 高 的 地 址 ， 而 第 7 行 的 jg 指令 后 向 跳 转 
到 较 低 的 地 址 。 


] moVq rdi, Wrax 
2 jmp .L2 

3 ‘L3: 

4 sarqg hrax 

5 “bi2: 

6 testq hrax, hrax 
7 jg .L3 

8 rep; ret 


汇编 右 产 生 的 “.o” 格 式 的 反 汇 编 版 本 如 下 : 


1 0: 48 89 f8 moV YXrdi ,XTrax 

2 3: eb 03 jmp 8 <loop+0x8> 
3 5: 48 di f8 sar hrax 

4 8: 48 85 c0 test “rax,hrax 

5 b: 2 8 jg 5 <loop+Ox5> 
6 d: f3 c3 repz retq 


右边 反 汇 编 器 产生 的 注释 中 ， 第 2 行 中 跳 转 指令 的 跳 转 目标 指明 为 0x8， 第 5 行 中 跳 
转 指令 的 跳 转 目标 是 0x5( 反 汇编 器 以 十 六 进 制 格式 给 出 所 有 的 数字 )。 不 过 ， 观 察 指 令 的 
字 节 编码 ， 会 看 到 第 一 条 跳 转 指令 的 目标 编码 (在 第 二 个 字 节 中 ) 为 0x03。 把 它 加 上 0x5， 
也 就 是 下 一 条 指令 的 地 址 ， 就 得 到 跳 转 目 标 地 址 0x8， 也 就 是 第 4 行 指令 的 地 址 。 

类 似 ， 第 二 个 跳 转 指令 的 目标 用 单字 节 、 补 码 表示 编码 为 0xf8( 十 进 制 -8)。 将 这 个 数 
加 上 0xd( 十 进 制 13) ， 即 第 6 行 指令 的 地 址 ， 我 们 得 到 0x5， 即 第 3 行 指令 的 地 址 。 

这 些 例子 说 明 ， 当 执行 PC 相对 寻 址 时 ， 程 序 计 数 器 的 值 是 跳 转 指 令 后 面 的 那 条 指令 
的 地 址 ， 而 不 是 跳 转 指令 本 上身 的 地 址 。 这 种 惯例 可 以 追溯 到 早期 的 实现 ， 当 时 的 处 理 器 会 
将 更 新 程序 计数 器 作为 执行 一 条 指令 的 第 一 步 。 


下 面 是 链接 后 的 程序 反 汇 编 版 本 : 

1 4004d0: 48 89 f8 mov rdi ,hrax 

2 4004d3: eb 03 jmp 4004d8 <loop+0x8> 
3 4004d5: 48 dl f8 sar hrax 

4 4004d8: 48 85 c0 test ‘%hrax,hrax 

5 4004db: 7f f8 jg 4004d5 <loop+0x5> 
6 4004dd: f3 c3 repz retq 


这 些 指 令 被 重 定 位 到 不 同 的 地 址 ， 但 是 第 2 行 和 第 5 行 中 跳 转 目标 的 编码 并 没有 变 。 
通过 使 用 与 PC 相对 的 跳 转 目标 编码 ， 指 令 编码 很 简洁 (只 需要 2 个 字 节 )， 而 且 目 标 代码 
可 以 不 做 改变 就 移 到 内 存 中 不 同 的 位 置 。 
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EE 指令 rep 和 repz 有 什么 用 

本 节 开 始 的 汇编 代码 的 第 8 行 包 含 指 令 组 合 rep; ret。 它 们 在 反 汇 编 代 码 中 (第 6 
行 ) 对 应 于 repz retq。 可 以 推测 出 repz 是 rep 的 同 义 名 ， 而 retq 是 ret 的 同 义 名 。 
查阅 Intel 和 AMD 有 关 rep 的 文档 ， 我 们 发 现 它 通常 用 来 实现 重复 的 字符 串 操作 [3， 
51]。 在 这 里 用 它 似乎 很 不 合适 。 这 个 问题 的 答案 可 以 在 AMD 给 编译 器 编写 者 的 指导 
意见 书 L1] 中 找到 。 人 他们 建议 用 rep 后 面 跟 ret 的 组 合 来 避免 使 ret 指令 成 为 条 件 跳 转 
指令 的 目标 。 如 果 没 有 rep 指令 ， 当 分 支 不 跳 转 时 ，jg 指令 (汇编 代码 的 第 7 行 ) 会 继 
续 到 ret 指令 。 根 据 AMD 的 说 法 ， 当 ret 指令 通过 跳 转 指令 到 达 时 ， 处 理 器 不 能 正确 
预测 ret 指令 的 目的 。 这 里 的 rep 指令 就 是 作为 一 种 空 操作 ， 因 此 作为 跳 转 目的 插入 
它 ， 除 了 能 使 代码 在 AMD 上 运行 得 更 快 之 外 ， 不 会 改变 代码 的 其 他 行为 。 在 本 书后 面 
其 他 代码 中 再 遇 到 rep 或 repz 时 ， 我 们 可 以 很 放心 地 无 视 它 们 。 


让 汉 练习 题 3.15 在 下 面 这 些 反 汇编 二 进 制 代码 节选 中 ， 有 些 信息 被 又 代替 了 。 回 答 下 


列 关 于 这 些 指 令 的 问题 。 
A. 下 面 je 指令 的 目标 是 什么 ? (在 此 ， 你 不 需要 知道 任何 有 关 callqg 指令 的 信息 。) 


4003fa: 74 02 je XXXXXX 

4003fc: ff dO callq */hrax 
B. 下 面 je 指令 的 目标 是 什么 ? 

40042f: 74 £4 je XXXXXX 

400431: 5d pop %rbp 
C. ja 和 pop 指令 的 地 址 是 多 少 ? 

XXXXXX: 77 O02 ja 400547 

XXXXXX: 5d pop %rbp 


D. 在 下 面 的 代码 中 ， 跳 转 目标 的 编码 是 PC 相对 的 ， 且 是 一 个 4 字 节 补 码 数 。 字 节 按 
照 从 最 低位 到 最 高 位 的 顺序 列 出 ， 反 上 映 出 x86-64 的 小 端 法 字 节 顺序 。 跳 转 目 标的 


地 址 是 什么 ? 
4005e8: e9 73 ff ff ff jmpq XXXXXXX 
4005ed: 90 nop 


跳 转 指令 提供 了 一 种 实现 条 件 执 行 (i£) 和 几 种 不 同 循环 结构 的 方式 。 


3.6.5 用 条 件 探 制 来 实现 条 件 分 文 


将 条 件 表达 式 和 语句 从 C 语言 翻译 成 机 器 代码 ， 最 常用 的 方式 是 结合 有 条 件 和 无 条 件 
跳 转 。( 另 一 种 方式 在 3. 6. 6 节 中 会 看 到 ， 有 些 条 件 可 以 用 数据 的 条 件 转移 实现 ， 而 不 是 
用 控制 的 条 件 转 移 来 实现 .) 例 如 ， 图 3-16a 给 出 了 一 个 计算 两 数 之 差 绝对 值 的 函数 的 C 代 
码 2? 。 这 个 函数 有 一 个 副作用 ， 会 增加 两 个 计数 器 ， 编 码 为 全 局 变量 It_cnt 和 ge_cnt 之 
一 。GCC 产生 的 汇编 代码 如 图 3-16c 所 示 。 把 这 个 机 器 代码 再 转换 成 C 语言 ， 我 们 称 之 为 
函数 gotodiff se( 图 3-16b)。 它 使 用 了 C 语言 中 的 goto 语句 ， 这 个 语句 类 似 于 汇编 代 
码 中 的 无 条 件 跳 转 。 使 用 goto 语句 通常 认为 是 一 种 不 好 的 编程 风格 ， 因 为 它 会 使 代码 非 


日 ”实际 上 上， 如果 一 个 减法 滋 出 ， 这 个 函数 就 会 返回 一 个 负数 值 。 这 里 我 们 主要 是 为 了 展示 机 器 代码 ， 而 不 是 
实现 代码 的 健壮 性 。 
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常 难 以 阅读 和 调试 。 本 文中 使 用 goto 语句 ， 是 为 了 构造 描述 汇编 代码 程序 控制 流 的 C 程 
序 。 我 们 称 这 样 的 编程 风格 为 “goto 代码 ”。 

在 goto 代码 中 (图 3-16b)， 第 5 行 中 的 goto x ge y 语句 会 导致 跳 转 到 第 9 行 中 的 标 
号 x_ge_y 处 ( 当 zr 宇 y 时 会 进行 跳 转 )。 从 这 一 点 继续 执行 ， 完 成 函数 absdiff se 的 
else 部 分 并 返回 。 男 一 方面 ， 如 果 测 试 x>=y 失败 ， 程 序 会 计算 apsdiff se 的 if 部 分 
指定 的 步骤 并 返回 。 

汇编 代码 的 实现 (图 3-16c) 首 先 比 较 了 两 个 操作 数 ( 第 2 行 )， 设 置 条 件 码 。 如 果 比 较 
的 结果 表明 z 大 于 或 者 等 于 y， 那 么 它 就 会 跳 转 到 第 8 行 ， 增 加 全 局 变量 ge_cnt， 计 算 x 
-y 作为 返回 值 并 返回 。 由 此 我 们 可 以 看 到 absdiff se 对 应 汇编 代码 的 控制 流 非常 类 似 于 
gotodiff se 的 goto 代码 。 


long lt_cnt 
long ge_cnt 


long gotodiff_se(long x, long y) 
{ 

long result; 

if (x >= y) 

goto x_ge_y; 

It_ cntt++。 

result = Yy- x; 

return result; 
X_Ee_y: 

ge_cnt++; 

result = X 一 了; 

return result; 


long absdiff_se(long XxX, 
t 
long result; 
4 
lt_cnt++; 
result = 了 = XxX; 


1 
2 
3 
4 
5 
6 
7 
8 
9 


上 

else { 
ge_cnt++; 
result = X 一 了 ; 





} 


return result; 





a ) 原始 的 C 语 言 代 码 b ) 与 之 等 价 的 goto 版 本 


long absdiff_se(long x, long y) 
X ID Yrdi, y in Yrsi 
absdiff_se: 
cmpq hrsi, %rdi Compare 和 :7 
jge ‘LL2 If >= goto X_ge_y 
addq $1, lt_cnt (hrip) 1t_cnt++ 
movqg Wrsi, %rax 


subq %rdi, %rax result =y—-xX 
ret Return 


A x_ge_y: 
addq $1, ge_cnt (hrip) ge_cnt++ 
movg %rdi, %rax 
subq hrsi, hrax result =x-y 
ret Return 





c) 产生 的 汇编 代码 


图 3-16 ”条 件 语句 的 编译 。a)C 过 程 absdiff se 包含 一 个 if-else 语句 ; b)C 过 程 gotodiff se 
模拟 了 汇编 代码 的 控制 ; c) 给 出 了 产生 的 汇编 代码 
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C 语言 中 的 if-else 语句 的 通用 形式 模板 如 下 : 
if (test-expr) 

then-statement 
else 


else-statement 


这 里 test-expr 是 一 个 整数 表达 式 ， 它 的 取 值 为 0( 解 释 为 “ 假 ”) 或 者 为 非 0( 解 释 为 “ 真 ”)。 
两 个 分 支 语 句 中 (themstatement 或 else-statement) 只 会 执行 一 个 。 

对 于 这 种 通用 形式 ， 汇 编 实现 通 常会 使 用 下 面 这 种 形式 ， 这 里 ,我们 用 C 语法 来 描述 
控制 流 : 

t = test-expr; 

《1 二) 

goto false; 
then-statement 


goto done ; 
false: 


else-statement 
done: 


也 就 是 ， 汇 编 右 为 therstatement 和 else-statement 产生 各 目的 代码 块 。 它 会 插入 条 件 
和 无 条 件 分 支 ， 以 保证 能 执行 正确 的 代码 块 。 


国 涪 用 C 代码 描述 机 器 代码 


图 3-16 给 出 了 一 个 示例 ， 用 来 展示 把 C 语言 控制 结构 翻译 成 机 器 代码 。 图 中 包括 
示例 的 C 函数 a 和 由 GCC 生成 的 汇编 代码 的 注释 版 本 c， 还 有 一 个 与 汇编 代码 结构 高 度 
一 致 的 C 语言 版 本 b。 机 器 代码 的 C 语 言 表示 有 助 于 你 理解 其 中 的 关键 点 ， 能 引导 你 理 
解 实际 的 汇编 代码 。 
证 台 练习 题 3. 16 已 知 下 列 C 代码 : 
void cond(long a, long *p) 
{ 
if (p && a > *p) 
*p = a; 
} 
GCC 会 产生 下 面 的 汇编 代码 : 
void cond(long a, long *p) 


a im hrdi, Dp In %rsi 


Cond : 
testq Wrei,: Yrsi 
je Lid 
cmpq %rdi, (%rsi) 
jge ,LH 
movg kya, (CHEGS,) 
ub 
rep; ret 


A. 按照 图 3-16b 中 所 示 的 风格 ， 用 C 语言 写 一 个 goto 版 本 ， 执 行 同 样 的 计算 ， 并 模 
拟 汇 编 代 码 的 控制 流 。 像 示例 中 那样 给 汇编 代码 加 上 注解 可 能 会 有 所 帮助 。 
B. 请 说 明 为 什么 C 语言 代码 中 只 有 一 个 i£ 语 句 ， 而 汇编 代码 包含 两 个 条 件 分 支 。 
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区 练习 题 3. 17 将 if 语句 翻译 成 goto 代码 的 另 一 种 可 行 的 规则 如 下 : 
t = test-expr; 
i 
goto true; 

else-statement 
goto done; 

true: 
then-statement 

done: 


A. 基于 这 种 规则 ， 重 写 absdiff se 的 goto 版 本 。 
B. 你 能 想 出 选用 一 种 规则 而 不 选用 另 一 种 规则 的 理由 吗 ? 
巧 S 练习 题 3. 18 从 如 下 形式 的 C 语 言 代 码 开始 : 


long test(long x, long y, long Z) 1 
long val = 
FE 由 或 
FF 《 ) 
val ， 
else 
val = ec 
} else if ( _ 
Val = : 
return val; 


} 
GCC 产生 如 下 的 汇编 代码 : 
long test(long x, long y, long 2) 
x in Ardis yin rei; 2 in Xrdr 
test: 
leaqg (Wrdi, Wrsi), Wrax 
addq %rdx, %rax 
cmpq $=3, i 


jge ‘L2 
cmpq hradx, hrsi 
jge -3 
moVdq hrdi, hrax 
imulq Whrsi, hrax 
ret 
3: 
movq hrsi, hrax 
imulq “rdx, %rax 
ret 
sh2: 
cmpq $2,，%rdi 
jle .L4 
movqg %rdi, hrax 
imulq %rdx, %rax 
.L4: 
rep; ret 


填写 C 代码 中 缺失 的 表达 式 。 
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3. 6.6 用 条 件 传送 来 实现 条 件 分 文 


实现 条 件 操作 的 传统 方法 是 通过 使 用 控制 的 条 件 转移 。 当 条 件 满 足 时 ， 程 序 沿 着 一 条 
执行 路 径 执 行 ， 而 当 条 件 不 满足 时 ， 就 走 另 一 条 路 径 。 这 种 机 制 简单 而 通用 ， 但 是 在 现代 
处 理 器 上 ， 它 可 能 会 非常 低 效 。 

一 种 替代 的 策略 是 使 用 数据 的 条 件 转 移 。 这 种 方法 计算 一 个 条 件 操 作 的 两 种 结果 ， 然 
后 再 根据 条 件 是 否 满足 从 中 选取 一 个 。 只 有 在 一 些 受 限制 的 情况 中 ， 这 种 策略 才 可 行 ， 但 
是 如 果 可 行 ， 就 可 以 用 一 条 简单 的 条 件 传 送 指 令 来 实现 它 ， 条 件 传 送 指令 更 符合 现代 处 理 
右 的 性 能 特性 。 我 们 将 介绍 这 一 策略 ， 以 及 它 在 x86-64 上 的 实现 。 

图 3-17a 给 出 了 一 个 可 以 用 条 件 传送 编译 的 示例 代码 。 这 个 也 数 计算 参数 x 和 y 差 的 
绝对 值 ， 和 前 面 的 例子 一 样 ( 图 3-16)。 不 过 前 面 的 例子 中 ,分 支 里 有 副作用 ,会 修改 1t 
cnt 或 ge_cnt 的 值 ， 而 这 个 版 本 只 是 简单 地 计算 函数 要 返回 的 值 。 

GCC 为 该 函数 产生 的 汇编 代码 如 图 3-17c 所 示 ， 它 与 图 3-17b 中 所 示 的 C 郴 数 
cmovdiff 有 相似 的 形式 。 研 究 这 个 C 版 本 ， 我们 可 以 看 到 它 既 计算 了 y-x, 也 计算 了 x-y， 
分 别 命 名 为 rval 和 eval。 然 后 它 再 测试 x 是否 大 于 等 于 y， 如 果 是 ， 就 在 明 数 返回 rval 
前 ,将 eval 复制 到 rval 中 。 图 3-17c 中 的 汇编 代码 有 相同 的 逻辑 。 关 键 就 在 于 汇编 代码 的 那 
条 cmovge 指令 (第 7 行 ) 实 现 了 cmovdiff 的 条 件 赋值 (第 8 行 )。 只 有 当 第 6 行 的 cmpq 指令 表明 
一 个 值 大 于 等 于 男 一 个 值 (正如 后 级 ge 表明 的 那样 ) 时 ， 才 会 把 数据 源 寄存 器 传送 到 目的 。 


long absdiff(long x, long y) long cmovdiff(long x, long y) 
{ 

long result; long rval = y-x; 

和 (x < 5 long eval = x-y; 


result =y— Xx; long ntest = x >= y; 


else /* Line below requires 
result = xX- VY; single instruction: */ 
return result; if (ntest) rval = eval; 
return rval; 





a ) 原始 的 C 语 言 代码 b ) 使 用 条 件 赋值 的 实现 


long absdiff(Iong XxX, long y) 
x dn ridis y dn rai 
absdiff: 
movg hrsi, hrax 
subq hrdi, hrax rval = y-x 


movqg rai Nrdr 

subg krais, rdx eval = Xx-y 

cmpq Xrai, Xrdi Compare xX:y 
cmovge hrdx, hrax If >=, rval = eval 
ret Return tval 





c ) 产生 的 汇编 代码 


图 3-17 使 用 条 件 赋值 的 条 件 语 句 的 编译 。a)C 函数 absdiff 包含 一 个 条 件 表 达 式 ; 
b)C 困 数 cmovdiff 模拟 汇编 代码 操作 ; cc) 给 出 产生 的 汇编 代码 
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为 了 理解 为 什么 基于 条 件数 据 传 送 的 代码 会 比 基 于 条 件 控制 转移 的 代码 (如 图 3-16 中 
那样 ) 性 能 要 好 ， 我 们 必须 了 解 一 些 关 于 现代 处 理 咒 如 何 运 行 的 知识 。 正 如 我 们 将 在 第 4 
章 和 第 5 章 中 看 到 的 ， 处 理 器 通过 使 用 流水 线 (pipelining) 来 获得 高 性 能 ， 在 流水 线 中 ,一 
条 指令 的 处 理 要 经 过 一 系列 的 阶段 ， 每 个 阶段 执行 所 需 操 作 的 一 小 部 分 (例如 ， 从 内 存 取 
指令 、 确 定 指令 类 型 、 从 内 存 读 数据 、 执 行 算 术 运 算 、 向 内 存 写 数据 ， 以 及 更 新 程序 计数 
髓 )。 这 种 方法 通过 重 疤 连续 指令 的 步骤 来 获得 高 性 能 例如， 在 取 一 条 指令 的 同时 ， 执 
行 它 前 面 一 条 指令 的 算术 运算 。 要 做 到 这 一 点 ， 要 求 能 够 事先 确定 要 执行 的 指令 序列 ， 这 
样 才能 保持 流水 线 中 充满 了 待 执行 的 指令 。 当 机 器 遇 到 条 件 跳 转 (也 称 为 “分 支 ”) 时 ， 只 
有 当 分 支 条 件 求 值 完成 之 后 ， 才 能 决定 分 支 往 哪 边 走 。 处 理 右 采用 非常 精密 的 分 支 预 测 逻 
辑 来 猜测 每 条 跳 转 指令 是 否 会 执行 。 只 要 它 的 猜测 还 比较 可 靠 ( 现 代 微 处 理 絮 设计 试图 达 
到 90%% 以 上 的 成 功率 )， 指 令 流 水 线 中 就 会 充满 着 指令 。 另 一 方面 ， 错 误 预 测 一 个 跳 转 ， 
要 求 处 理 器 丢掉 它 为 该 跳 转 指令 后 所 有 指令 已 做 的 工作 ， 然 后 再 开始 用 从 正确 位 置 处 起 始 
的 指令 去 填充 流水 线 。 正 如 我 们 会 看 到 的 ， 这 样 一 个 错误 预测 会 招致 很 严重 的 惩罚 ， 浪 费 
大 约 15 一 30 个 时 钟 周 期 ， 导 致 程序 性 能 严重 下 降 。 

作为 一 个 示例 ， 我 们 在 Intel Haswell 处 理 器 上 运行 apsgiff 函数 ， 用 两 种 方法 来 实 
现 条 件 操 作 。 在 一 个 典型 的 应 用 中 ，x< y 的 结果 非常 地 不 可 预测 ， 因 此 即使 是 最 精密 的 
分 支 预测 硬件 也 只 能 有 大 约 50% 的 概率 猜 对 。 此 外， 两 个 代码 序列 中 的 计算 执行 都 只 需要 
一 个 时 钟 周 期 。 因 此 ， 分支 预测 错误 处 罚 主 导 着 这 个 函数 的 性 能 。 对 于 包含 条 件 跳 转 的 
x86-64 代码 ， 我 们 发 现 当 分 支行 为 模式 很 容易 预测 时 ， 每 次 调用 函数 需要 大 约 8 个 时 钟 周 
期 ;而 分 支行 为 模式 是 随机 的 时 候 ， 每 次 调用 需要 大 约 17. 50 个 时 钟 周期 。 由 此 我 们 可 以 
推断 出 分 支 预测 错误 的 处 罚 是 大 约 19 个 时 钟 周期 。 这 就 意味 着 函数 需要 的 时 间 范 围 大 约 
在 8 到 27 个 周期 之 间 ， 这 依赖 于 分 支 预测 是 否 正 确 。 


ES 如 何 确定 分 支 预 测 错误 的 处 罚 

假设 预测 错误 的 概率 是 方 ， 如 果 没 有 预测 错误 ， 执 行 代码 的 时 间 是 Tok， 而 预测 错 
误 的 处 罚 是 Tvwp。 那 么 ， 作 为 旋 的 一 个 函数 ， 执 行 代码 的 平均 时 间 是 Tue( 力 ) 一 (1 一 力 ) 
Tork 十 p(Tor 十 Typ) 二 Tog 十 pTvmp。 如 果 已 知 Tog 和 Ts( 当 思 王 0.5 时 的 平均 时 间 )， 要 
确定 Tmp。 将 参数 代入 等 式 ， 我 们 有 Tis 二 Ts (0.5) 二 Tog 十 0. 5Twp， 所 以 有 Tap 二 2 
(Tin 一 Tog)。 因 此 ， 对 于 Tox 二 8 和 Ti 三 17.5, 我 们 有 Te 二 19。 


男 一 方面 ， 无 论 测试 的 数据 是 什么 ， 编 译 出 来 使 用 条 件 传送 的 代码 所 需 的 时 间 都 是 大 
约 8 个 时 钟 周 期 。 控 制 流 不 依赖 于 数据 ， 这 使 得 处 理 需 更 容易 保持 流水 线 是 满 的 。 
星 练习 题 3. 19 ”在 一 个 比较 旧 的 处 理 器 模型 上 运行 ， 当 分 支行 为 模式 非常 可 预测 时 ， 我 

们 的 代码 需要 大 约 16 个 时 钟 周期 ， 而 当 模 式 是 随机 的 时 候 ， 需 要 大 约 31 个 时 钟 周期 。 

A. 预测 错误 处 罚 大 约 是 多 少 ? 

B. 当 分 支 预测 错误 时 ， 这 个 函数 需要 多 少 个 时 钟 周期 ? 

图 3-18 列举 了 x86-64 上 一 些 可 用 的 条 件 传 送 指令 。 每 条 指令 都 有 两 个 操作 数 : 源 寄 
存 器 或 者 内 存 地 址 S， 和 目的 寄存 占 R。 与 不 同 的 SET(3. 6.2 节 ) 和 跳 转 指令 (3. 6. 3 节 ) 
一 样 ， 这 些 指令 的 结果 取决 于 条 件 码 的 值 。 源 值 可 以 从 内 存 或 者 源 寄存 器 中 读 取 ,但 是 
有 在 指定 的 条 件 满 足 时 ， 才 会 被 复制 到 目的 寄存 器 中 。 

源 和 目的 的 值 可 以 是 16 位 、32 位 或 64 位 长 。 不 支持 单字 节 的 条 件 传 送 。 无 条 件 指令 的 操 
作 数 的 长 度 显 式 地 编码 在 指令 名 中 (例如 movw 和 mov1)， 汇 编 器 可 以 从 目标 寄存 器 的 名 字 推 断 


0 


、 


AN 


出 条 件 传送 指 
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ET TT 


cmove S$S,R 相等 / 零 
不 相等 / 非 零 


负数 
非 负数 



















cmovne SS.R 


















CmoVvs SR 
cmovns S$,R 


















cmovg S$,R cmovnle ~(SF ~ OF) & ~ZF 
~(SF ~ OF) 
SE OF 


(SF ~ OF) | ZF 


大 于 (有 符号 >) 
大 于 或 等 于 (有 符号 >= ) 
小 于 (有 符号 < ) 
小 于 或 等 于 (有 符号 <= ) 





cmovge 5,R cmovnl 
cmovl S$,R 


S$, 人 













cmovnge 





cmovle cmovng 
































cmova SS,R cmovnbe ~CF & ~ZF 超过 ( 无 符号 > ) 
cmovae 9. 尺 cmovnb 超过 或 相等 ( 无 符号 >= ) 
cmovb S$S,R cmovnae 低 于 (无 符号 <) 











cmovbe S$,R 低 于 或 相等 (无 符号 <= ) 


Cmovna 


图 3-18 条件 传 送 指 令 。 当 传送 条 件 满足 时 ， 指 令 把 源 值 S 复制 到 目的 R。 
有 些 指令 是 “ 同 义 名 ”， 即 同一 条 机 需 指 令 的 不 同名 字 
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指令 的 操作 数 长 度 ， 所 以 对 所 有 的 操作 数 长 度 ， 都 可 以 使 用 同一 个 的 指令 名 字 


同 条 件 跳 转 不 同 ， 处 理 器 无 需 预 测 测试 的 结果 就 可 以 执行 条 件 传 送 。 处 理 右 只 是 读 源 


值 ( 可 能 是 从 内 存 中 )， 检 查 条 件 码 ， 然 后 要 么 更 新 目的 寄存 器 ， 要 么 保持 不 变 。 我 们 会 在 
第 4 章 中 探讨 条 件 传送 的 实现 。 


为 了 理解 如 何 通过 条 件数 据 传输 来 实现 条 件 操作 ， 考 虑 下 面 的 条 件 表 达 式 和 赋值 的 通 


用 形式 ，: 


VV 三 


test-expr ? then-expr : else-expr; 


用 条 件 控制 转移 的 标准 方法 来 编译 这 个 表达 式 会 得 到 如 下 形式 : 


if (ltest-expr) 


goto false; 
V = then-expr; 
goto done ; 
false: 


V = else-expr; 


done: 


这 段 代码 包含 两 个 代码 序列 : 


跳 转 和 无 条 件 跳 转 结合 起 来 使 用 是 为 了 保证 只 有 一 个 序列 执行 。 


基于 条 件 传送 的 代码 ， 


erpr 的 求 值 。 可 以 用 下 面 的 抽象 代码 描述 : 


i 
t = 
人 人 
序列 

小 者 对 


then-expr; 
else-expr; 
test-expr; 
It) V = ve; 


中 的 最 后 一 条 语句 是 用 条 件 传 送 实 现 的 一 一 只 有 当 测 试 条 件 t 满足 时 ， 


制 到 v 中。 


一 个 对 themexpr 求 值 ， 男 一 个 对 else-expr 求 值 。 条 件 


会 对 thermezxpr 和 else-expr 都 求 值 ， 最 终 值 的 选择 基于 对 test 


七 的 值 


不 是 所 有 的 条 件 表 达 式 都 可 以 用 条 件 传送 来 编译 。 最 重要 的 是 ,无论 测试 结果 如 何 ， 


J48 第 一 部 分 程序 结构 和 执行 


我 们 给 出 的 抽象 代码 会 对 thermezpr 和 else-expr 都 求 值 。 如 果 这 两 个 表达 式 中 的 任意 一 个 
可 能 产生 错误 条 件 或 者 副作用 ， 就 会 导致 非法 的 行为 。 前 面 的 一 个 例子 (图 3-16) 就 是 这 种 
情况 。 实 际 上 ， 我 们 在 该 例 中 引入 副作用 就 是 为 了 强制 GCC 用 条 件 转 移 来 实现 这 个 函数 。 
作为 说 明 ， 考 虑 下 面 这 个 C 函数 : 
long cread(long *xp) { 


return (xp ? *xp : 0); 


} 


乍 一 看 ， 这 段 代码 似乎 很 适合 被 编译 成 使 用 条 件 传送 ， 当 指针 为 空 时 将 结果 设置 为 0， 
如 下 面 的 汇编 代码 所 示 : 
long cread(long *xp) 


lnvalid implementation of function cread 


xp in register Yradi 


1 cread.: 

2 movg (hradi》, “rax V = *xp 

3 testq  %rdi, %rdi Test x 

4 movl $0, Wedx Set ve = 0 

5 cmove hrdx, hrax If x==0, V = Ve 
6 ret Return v 


不 过 ， 这 个 实现 是 非法 的 ， 因 为 即使 当 测 试 为 假 时 ，movq 指令 (第 2 行 ) 对 xp 的 间接 引用 
还 是 发 生 了 ， 导 致 一 个 间接 引用 空 指针 的 错误 。 所 以 ， 必 须 用 分 文 代 码 来 编译 这 段 代 码 。 

使 用 条 件 传送 也 不 总 是 会 提高 代码 的 效率 。 例 如 ， 如 果 therrexpr 或 者 else-erpr 的 求 
值 需 要 大 量 的 计算 ， 那 么 当 相 对 应 的 条 件 不 满足 时 ， 这 些 工作 就 白费 了 。 编 译 器 必须 考虑 
浪费 的 计算 和 由 于 分 支 预测 错误 所 造成 的 性 能 处 罚 之 间 的 相对 性 能 。 说 实话 ， 编 译 器 并 不 
具有 足够 的 信息 来 做 出 可 靠 的 决定 ; 例如 ， 它 们 不 知道 分 支 会 多 好 地 遵循 可 预测 的 模式 。 
我 们 对 GCC 的 实验 表明 ， 只 有 当 两 个 表达 式 都 很 容易 计算 时 ， 例 如 表达 式 分 别 都 只 是 一 
条 加 法 指令 ， 它 才 会 使 用 条 件 传 送 。 根 据 我 们 的 经 验 ， 即 使 许多 分 支 预测 错误 的 开销 会 超 
过 更 复杂 的 计算 ，GCC 还 是 会 使 用 条 件 控制 转移 。 

所 以 ， 总 的 来 说 ， 条 件数 据 传 送 提供 了 一 种 用 条 件 控制 转移 来 实现 条 件 操作 的 替代 策 
略 。 它 们 只 能 用 于 非常 受 限制 的 情况 ,但 是 这 些 情 况 还 是 相当 和 常见 的 ， 而 且 与 现代 处 理 屁 
的 运行 方式 更 契合 。 

RS 练习 题 3. 20 在 下 面 的 C 函数 中 ， 我 们 对 OP 操作 的 定义 是 不 完整 的 : 

#define OP /* Unknown operator */ 


long arith(long x) + 
return x OP 8; 


} 
当 编 译 时 ，GCC 会 产生 如 下 汇编 代码 : 
long arith(long x) 
xX in yradi 
arith: 
leaqg TOUradi), ra 
testq  %rdi, %rdi 
cmovns Wrdi, hrax 
sarg $3, hrax 
ret 
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A. OP 进行 的 是 什么 操作 ? 
B. 给 代码 添加 注释 ， 解 释 它 是 如 何 工作 的 。 
证 室 练习 题 3. 21 C 代码 开始 的 形式 如 下 : 


long test(long x, long y) 二 
long val = ; 
rw 六艺 
六 ) 
Val = ; 
else 
Val = ; 
} else if ( ) 
Val = ; 
return val; 


上 
GCC 会 产生 如 下 汇编 代码 ， 


long test(long x, long y) 
X in Krdi, y in %rsi 
test: 
leaqg Ot ,Wradi 8), Wrax 
testq hrsi, %hrsi 


jle 7 

movg hrsi, hrax 
subg hrdi, hrax 
movg hrdi, “rax 
andq %rsi, %rdx 
cmpq NTEIL Krai 
cmovge ‘hrdx, hrax 
ret 

2 


adddq nrei, Wrdi 
cmpq $-2, %rsi 
cmovle Wrdi, hrax 
ret 


填补 C 代码 中 缺失 的 表达 式 。 


3.6. 7 循环 
C 语言 提供 了 多 种 循环 结构 ， 即 do-while、while 和 for。 汇 编 中 没有 相应 的 指令 

存在 ， 可 以 用 条 件 测试 和 跳 转 组 合 起 来 实现 循环 的 效果 。GCC 和 其 他 汇编 器 产生 的 循环 
代码 主要 基于 两 种 基本 的 循环 模式 。 我 们 会 循序 渐进 地 研究 循环 的 翻译 ， 从 do-while 开 
始 ， 然 后 再 研究 具有 更 复杂 实现 的 循环 ， 并 覆盖 这 两 种 模式 。 

1. do-while 循环 

do-while 语句 的 通用 形式 如 下 : 

do 


body-statement 
while (test-expr); 


这 个 循环 的 效果 就 是 重复 执行 body-statement ， 对 test-expr 求 值 ， 如 果 求 值 的 结果 为 非 
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和 零 ， 就 继续 循环 。 可 以 看 到 ，bodystatement 至 少 会 执行 一 次 。 


这 种 通用 形式 可 以 被 翻译 成 如 下 所 示 的 条 件 和 goto 语句 : 
loop: 
body-statement 
t = test-expr; 
3 
goto loop; 


也 就 是 说 ， 每 次 循环 ， 程 序 会 执行 循环 体 里 的 语句 ， 然 后 执行 测试 表达 式 。 如 果 测 试 为 
真 ， 就 回去 再 执行 一 次 循环 。 

看 一 个 示例 ， 图 3-19a 给 出 了 一 个 函数 的 实现 ， 用 do-while 循环 来 计算 函数 参数 的 
阶乘 ， 写 作 n!。 这 个 函数 只 计算 半 二 0 时 对 的 阶乘 的 值 。 
忆 闵 练习 题 3. 22 

A. 用 一 个 32 位 int 表示 n!， 最 大 的 n 的 值 是 多 少 ? 

B. 如 果 用 一 个 64 位 long 表示 ， 最 大 的 n 的 值 是 多 少 ? 

图 3-19b 所 示 的 goto 代码 展示 了 如 何 把 循环 变 成 低级 的 测试 和 条 件 跳 转 的 组 合 。result 
初始 化 之 后 ， 程 序 开 始 循环 。 首 先 执行 循环 体 ， 包 括 更 新 变量 result 和 n。 然 后 测试 2 二 1， 
如 果 是 真 ， 跳 转 到 循环 开始 处 。 图 3-19c 所 示 的 汇编 代码 就 是 goto 代码 的 原型 。 条 件 跳 转 指 
令 jg( 第 7 行 ) 是 实现 循环 的 关键 指令 ， 它 决定 了 是 需要 继续 重复 还 是 退出 循环 。 


long fact_do(long long fact_do_goto(long n) 
{ { 
long result = 1; long result 
do 荆 loop: 
result *= 卫 ; result *= n; 


Y= n = n-1; 
} while (n > 1); 3 
return result; goto loop; 
return result,; 





a ) C 代码 b ) 等 价 的 goto 版 本 


long fact_do(long n) 
n in rdi 
fact. /do: 
movl $1, %eax Set result = 1 
= loop: 


imulq %rdi, %rax Compute result *= n 
subqg $1, hrdi Decrement 1n 

cmpq $1, %rdi Compare n:1 

j& “2 If >, goto loop 
rep; ret Return 





c ) 对 应 的 汇编 代码 
图 3-10 阶乘 程序 的 do-while 版 本 的 代码 。 条 件 跳 转 会 使 得 程序 循环 
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逆向 工程 像 图 3-19c 中 那样 的 汇编 代码 ， 需 要 确定 哪个 寄存 器 对 应 的 是 哪个 程序 值 。 本 
例 中 ， 这 个 对 应 关系 很 容易 确定 : 我 们 知道 在 寄存 器 $rdi 中 传递 给 函数 。 可 以 看 到 寄存 
器 srax 初始 化 为 1( 第 2 行 )。( 注 意 ， 虽然 指令 的 目的 寄存 器 是 $eax， 它 实际 上 还 会 把 $rax 
的 高 4 字 节 设置 为 0。) 还 可 以 看 到 这 个 寄存 器 还 会 在 第 4 行 被 乘法 改变 值 。 此 外 ,srax 用 来 返 
回 函 数值 ， 所 以 通常 会 用 来 存放 需要 返回 的 程序 值 。 因 此 我 们 断定 $rax 对 应 程序 值 result。 
sa 练习 题 3. 23 已 知 C 代码 如 下 : 


long dw_loop(long x) + 
long y = Xx*X; 
long *p = &x; 
long n = 2*x; 
do +{ 
XxX 二 = 了; 
(*p)++; 
一 
} while (n > 0) ; 
return Xx; 


} 
GCC 产生 的 汇编 代码 如 下 : 


long dw_loop(long xX) 


x initially in Yrdi 


] dw_loop: 

2 movg Xi Wrax 

3 movg radi, Tre 

4 imulq  %rdi, %rcx 

5 leaq (Xrdi,%radi), %rdx 
6 L2 

7 leaq 4%rex, Wrax), Wrax 
8 subq $1 Xrdx 

9 testq  %rdx, hrdx 

10 jg 12 

11 rep; ret 


A. 哪些 寄存 器 用 来 存放 程序 值 x、y 和 nn? 
B. 编译 器 如 何 消除 对 指针 变量 p 和 表达 式 (*p)++ 隐 信 的 指针 间接 引用 的 需求 ? 
C. 对 汇编 代码 添加 一 些 注 释 ， 描 述 程 序 的 操作 ， 类 似 于 图 3-19c 中 所 示 的 那样 。 


旁 注 逆向 工程 循环 

理解 产生 的 汇编 代码 与 原始 源 代码 之 间 的 关系 ,关键 是 找到 程序 值 和 寄存 器 之 间 的 
映射 关系 。 对 于 图 3-19 的 循环 来 说 ， 这 个 任务 非常 简单 ， 但 是 对 于 更 复杂 的 程序 来 说 ， 
就 可 能 是 更 具 挑 战 性 的 任务 。C 语言 编译 器 常常 会 重组 计算 ， 因 此 有 些 C 代码 中 的 变量 
在 机 器 代码 中 没有 对 应 的 值 ; 而 有 时 ， 机 器 代码 中 又 会 引入 源 代 码 中 不 存在 的 新 值 。 此 
外 ， 编 译 器 还 常常 试图 将 多 个 程序 值 映射 到 一 个 寄存 器 上 ， 来 最 小 化 寄存 器 的 使 用 率 。 

我 们 描述 fact do 的 过 程 对 于 遂 向 工程 循环 来 说 ， 是 一 个 通用 的 策略 。 看 看 在 循 
环 之 前 如 何 初 始 化 寄存 器 ， 在 循环 中 如 何 更 新 和 测试 寄存 器 ， 以 及 在 循环 之 后 又 如 何 使 
用 寄存 器 。 这 些 步骤 中 的 每 一 步 都 提供 了 一 个 线索 ， 组 合 起 来 就 可 以 解 开 这 团 。 做 好 准 


备 ， 你 会 看 到 令 人 惊奇 的 变换 ， 其 中 有 些 情况 很 明显 是 编译 器 能 够 优化 代码 ， 而 有 些 情 
况 很 难 解释 编译 器 为 什么 要 选用 那些 奇怪 的 策略 。 根 据 我 们 的 经 验 ，GCC 常常 做 的 一 
些 变换 ， 非 但 不 能 带 来 性 能 好 处 ， 反 而 甚至 可 能 降低 代码 性 能 。 


2. while 循环 
while 语句 的 通用 形式 如 下 : 
While (test-expr) 
body-statement 
与 do-while 的 不 同 之 处 在 于 ， 在 第 一 次 执行 body-statement 之 前 ， 它 会 对 test-expr 求 
值 ， 循 环 有 可 能 就 中 止 了 。 有 很 多 种 方法 将 while 循环 翻译 成 机 器 代码 ，GCC 在 代码 生 
成 中 使 用 其 中 的 两 种 方法 。 这 两 种 方法 使 用 同样 的 循环 结构 ， 与 do-while 一 样 ， 不 过 它 
们 实现 初始 测试 的 方法 不 同 。 
第 一 种 翻译 方法 ， 我 们 称 之 为 跳 转 到 中 间 (jump to middle)， 它 执行 一 个 无 条 件 跳 转 
跳 到 循环 结尾 处 的 测试 ， 以 此 来 执行 初始 的 测试 。 可 以 用 以 下 模板 来 表达 这 种 方法 ， 这 个 
模板 把 通用 的 while 循环 格式 翻译 到 goto 代码 : 
goto test ; 
loop: 
body-statement 
test: 
t = test-expr; 
i 《) 
goto loop; 
作为 一 个 示例 ， 图 3-20a 给 出 了 使 用 while 循环 的 阶乘 函数 的 实现 。 这 个 函数 能 够 正 
确 地 计算 01 二 1]。 它 旁边 的 函数 fact while jm goto( 图 3-20b) 是 GCC 带 优化 命令 行 选 
项 -Og 时 产生 的 汇编 代码 的 C 语言 翻译 。 比 较 fact while( 图 3-20b) 和 fact do( 图 3-19b) 
的 代码 ， 可 以 看 到 它们 非常 相似 ， 区 别 仅 在 于 循环 前 的 goto test 语句 使 得 程序 在 修改 
result 或 n 的 值 之 前 ， 先 执行 对 n 的 测试 。 图 的 最 下 面 (图 3-20c) 给 出 的 是 实际 产生 的 汇 
编 代 码 。 
SN 练习 题 3.24 对 于 如 下 C 代码 ， 


long loop_while(long a, long b) 


long result = ” 


while ( wo 
result = ; 
a = - 

} 


return result,; 
} 
以 命令 行 选项 -0g 运行 GCC 产生 如 下 代码 ， 


long loop_while(long a, long b) 
a in Krdi, b in Yrsi 
1 loop_while: 
2 movl $1, heax 
jmp “L2 
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4 :Ld: 

5 leaq (Wrai, rest), rdx 
6 imulq hrdx, hrax 

7 addq $1, Wrdi 

8 Li2? 

9 cmpq nrsis, brdi 

10 币 上 人 :LS 

11 rep; ret 


可 以 看 到 编译 器 使 用 了 跳 转 到 中 间 的 翻译 方法 ， 在 第 3 行 用 jmp 跳 转 到 以 标号 
-L2 开 始 的 测试 。 填 写 C 代码 中 缺失 的 部 分 。 


long fact_while(long n) long fact_while_jm_goto(long n) 
{ { 
long result = 1; long result 
while (n > 1) goto test; 
result *= n; loop: 


a result *= n; 
W413 
return result; test: 
i Cm 全 1 
goto loop; 
return result,; 





a ) C 代 码 b ) 等 价 的 goto 版 本 


long fact_while(long n) 
n in rdi 
fact_while: 
movl $1, heax Set result = 1 
“Lb Goto test 
loop: 


imulq %rdi, hrax Compute result *= 1 
subq $1 wrdai Decrement n 

.Lb: test: 
cmpq 家 Compare n:1 
jg& :L6 If >, goto loop 
rep; ret Return 





c ) 对 应 的 汇编 代码 


图 3-20 ”使 用 跳 转 到 中 间 翻 译 方法 的 阶乘 算法 的 while 版 本 的 C 代码 和 汇编 代码 。 
C 函数 fact while jm goto 说 明了 汇编 代码 版 本 的 操作 
第 二 种 翻译 方法 ,我们 称 之 为 guarded-do， 首先 用 条 件 分 支 ， 如 果 初 始 条 件 不 成 立 就 
跳 过 循环 ， 把 代码 变换 为 ao-while 循环 ， 当 使 用 较 高 优化 等 级 编译 时 ， 例 如 使 用 命令 行 
选项 -01，GCC 会 采用 这 种 策略 。 可 以 用 如 下 模板 来 表达 这 种 方法 ， 把 通用 的 while 循环 
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格式 翻译 成 do-while 循环 : 
t = test-expr; 
if (!t) 
goto done ; 
do 
body-statement 
while (test-expr); 
done: 


相应 地 ， 还 可 以 把 它 翻译 成 goto 代码 如 下 : 


t = test-expr; 
i£ (IE) 
goto done ; 
loop: 
body-statement 
t = test-expr; 
if£ (t) 
goto loop; 
done : 


利用 这 种 实现 策略 ， 编 译 器 常常 可 以 优化 初始 的 测试 ， 例 如 认为 测试 条 件 总 是 满足 。 

再 来 看 个 例子 ， 图 3-21 给 出 了 图 3-20 所 示 阶 乘 函 数 同 样 的 C 代码 ， 不 过 给 出 的 是 
GCC 使 用 命令 行 选 项 -01 时 的 编译 。 图 3-21c 给 出 实际 生成 的 汇编 代码 ， 图 3-21b 是 这 个 
汇编 代码 更 易 读 的 C 语言 表示 。 根 据 goto 代码 ， 可 以 看 到 如 果 对 于 的 初始 值 有 nn 三 1， 
那么 将 跳 过 该 循环 。 该 循环 本 身 的 基本 结构 与 该 函数 do-while 版 本 产生 的 结构 (图 3-19) 
一 样 。 不 过 ， 一 个 有 趣 的 特性 是 ， 循 环 测试 (汇编 代码 的 第 9 行 ) 从 原始 C 代码 的 nn 二 1 变 
成 了 ?和夫 1。 编 译 需 知道 只 有 当 之 1 时 才 会 进入 循环 ， 所 以 将 n 减 1 意味 着 nn 二 1 或 者 n= 
1。 因 此 ， 测 试 n 关 1 就 等 价 于 测试 n 壹 1， 





long fact_while_gd_goto(long n) 
{ 


long fact_while(long n) 
{ 












long result = 1; 


long result = 1; 





While (n > 1) { i (Nn < 1) 
result *= n; goto done; 
n = n=-1; loop: 
} result *= n; 
return result; n = n-1; 
if (a l= 1) 
goto loop; 
done: 


return result; 


} 


a ) C 代 码 b ) 等 价 的 goto 版 本 


图 3-21 使 用 guarded-do 翻译 方法 的 阶乘 算法 的 while 版 本 的 C 代码 和 汇编 代码 。 
靖 数 fact while gd goto 说 明了 汇编 代码 版 本 的 操作 


1 
2 
3 
4 
5 
6 
7 
8 
9 


long fact_while(long n) 
n in %rdi 
fact_while: 
cmpq $1, hrdi 
jle | 
movl $1, %eax 
-3 
imulq Whrdi, %rax 
subq $1, %radi 
cmpq $1, %rdi 
jne -LG 
rep; ret 
sf: 
movl 
ret 


$1, Weax 


程序 的 机 器 级 表示 


Compare n:1 
lIf <=, goto done 
Set result = 
loop: 
Compute result *= n 
Decrement n 
Compare n:1 
If !=, 


Return 


goto loop 


done: 
Compute result 


Return 


198 





c ) 对 应 的 汇编 代码 
图 3-21 ( 续 ) 


ER 练习 题 3. 25 ”对 于 如 下 C 代码 ， 
long loop_while2(long a, long b) 


{ 
long result = 一 
一 六 业 
result = - 
6 = 
4 
return result; 
} 


以 命令 行 选 项 -01 运行 GCC， 产 生 如 下 代码 ， 
a dn Bradi, b dn Krai 


loop_while2: 


1 
2 testg hraid, Hirsi 
3 jle -E83 
4 movg hrsi, hrax 
5 a 
6 imulq %rdi, hrax 
7 subg Lrdi, hESI 
8 testq Whrsi, hrsi 
9 jg .工区 
10 rep; ret 
11 .LL8: 
12 movqg 为 于 店主 SS 
13 ret 


可 以 看 到 编译 器 使 用 了 guarded-do 的 翻译 方法 ， 在 第 3 行使 用 了 jle 指令 使 得 当初 始 
测试 不 成 立时 ， 和 忽略 循环 代码 。 填 写 缺 失 的 C 代 码 。 注 意 汇编 语言 中 的 控制 结构 不 一 定 与 
根据 翻译 规则 直接 翻译 C 代码 得 到 的 完全 一 致 。 特 别 地 ， 它 有 两 个 不 同 的 ret 指令 (第 10 
行 和 第 13 行 )。 不 过 ， 你 可 以 根据 等 价 的 汇编 代码 行为 填写 C 代码 中 缺失 的 部 分 。 
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性 汉 练习 题 3. 26 函数 fun a 有 如 下 整体 结构 : 


long fun_a(unsigned long x) 1 
long val = 0; 
while. ( ,s. ) { 


return ea 


GCC C 编译 器 产生 如 下 汇编 代码 : 
long fun_a(unsiened long x) 


XxX in rdi 


1 fun_a: 

2 movl $0, Weax 

3 jmp .L5 

4 .1L6: 

5 Xxorqg di， WEax 
6 shrq hrdi Shift right by 1 
7 “Lb: 

8 testq  ‘%rdi, %rdi 
9 jne .L6 

10 andl $1, Weax 
11 ret 


北 疝 工程 这 段 代码 的 操作 ， 然 后 完成 下 面 作业 : 
A. 确定 这 段 代码 使 用 的 循环 翻译 方法 。 
B. 根据 汇编 代码 版 本 填写 C 代码 中 缺失 的 部 分 。 
C. 用 目 然 语 言 描 述 这 个 函数 是 计算 什么 的 。 
3. for 循环 
for 循环 的 通用 形式 如 下 : 
for (init-expr; test-expr; update-expr) 
body-statement 
C 语言 标准 说 明 (有 一 个 例外 ， 练 习题 3. 29 中 有 特别 说 明 )， 这 样 一 个 循环 的 行为 与 下 面 
这 段 使 用 while 循环 的 代码 的 行为 一 样 : 
init-expr; 
While (test-expr) { 
body-statement 
update-expr’; 
} 
程序 首先 对 初始 表达 式 initexpr 求 值 ， 然 后 进入 循环 ; 在 循环 中 它 先 对 测试 条 件 test 
xpr 求 值 ， 如 果 测 试 结果 为 “ 假 ” 就 会 退出 ， 否 则 执行 循环 体 body-statement; 最 后 对 
更 新 表达 式 update-erpr 求 值 。 
GCC 为 for 循环 产生 的 代码 是 while 循环 的 两 种 翻译 之 一 ， 这 取决 于 优化 的 等 级 。 
也 就 是 ， 跳 转 到 中 间 策 略 会 得 到 如 下 goto 代码 : 
init-expr; 
goto test, 
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loop: 
body-statement 
update-expr; 
test: 
t = test-expr; 
if (t) 
goto loop; 


而 guarded-do 策略 得 到 : 


init-expr; 
t = test-expr; 
if (!t) 
goto done; 
loop: 
body-statement 
update-expr; 
t = test-expr; 
if (C) 
goto loop; 
done: 


作为 一 个 示例 ， 考 虑 用 for 循环 写 的 阶乘 图 数 : 


long fact_for(long n) 


{ 
long i; 
long result = 1; 
for (i = 2; i <= n; i++) 
result *= i; 
return result.; 
} 


如 上 述 代 码 所 示 ， 用 for 循环 编写 阶乘 晒 数 最 目 然 的 方式 就 是 将 从 2 一 直到 ”的 因子 
乘 起 来 ， 因 此 ， 这 个 函数 与 我 们 使 用 while 或 者 dao-while 循环 的 代码 很 不 一 样 。 
这 段 代 码 中 的 for 循环 的 不 同 组 成 部 分 如 下 : 


init-expr 7 
test-expr i 
update-expr 主 二 二 
body-statement result *= i; 


用 这 些 部 分 蔡 换 前 面 给 出 的 模板 中 相应 的 位 置 ， 就 把 for 循环 转换 成 了 while 循环 ， 
得 到 下 面 的 代码 : 


long fact_for_while(long n) 
t 
long i = 2; 
long result = 1; 
While (i <= n) 1 
result *= i; 
上 


} 


return result; 
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对 while 循环 进行 跳 转 到 中 间 变 换 ， 得 到 如 下 goto 代码 
long fact_for_jm_goto(long n) 
{ 
long i = 2; 
long result = 1; 
goto test, 
loop: 
result *= 工 ; 
并 十 十 ， 
test: 
if (i <= n) 
goto loop,; 
return result; 


} 
确实 ， 仔 细 查 看 使 用 命令 行 选项 -0g 的 GCC 产生 的 汇编 代码 ， 会 发 现 它 非常 接近 于 以 下 模板 ; 


long fact_for(long n) 
n in prdi 


fact Eor: 
movl $1, Weax Set result = 1 
movl $2, hedx Set 也 才 
jmp .18 Goto test 

.L9: loop: 
imulq %rdx, hrax Compute result *= i 
addq $1, hrdx Increment i 

ss test: 
cmpq nrdi,, WEdx Compare i:n 
jle “LL9 If <=, goto loop 
rep; ret Return 


证 台 | 练习 题 3.27 先 把 fact for 转换 成 while 循环 ， 再 进行 guarded-do 变换 ， 写 出 
fact for 的 goto 代码 。 
综 上 所 述 ，C 语言 中 三 种 形式 的 所 有 的 循环 do-while、while 和 for 都 可 以 
用 一 种 简单 的 宋 略 来 翻译 ， 产 生 包含 一 个 或 多 个 条 件 分 支 的 代码 。 控 制 的 条 件 转移 提供 了 
将 循环 翻译 成 机 带 代 码 的 基本 机 制 。 
户 开 练习 题 3. 28 函数 fun_b 有 如 下 整体 结构 ， 


long fun_b(unsigned long x) 1 
long val = 0; 
long i; 








} 


return val; 


} 
GCC C 编译 器 产生 如 下 汇编 代码 ， 


long fun_b(unsigned long xX) 
X in prdi 


1 fun_b: 

2 movl $64, Whedx 
3 movl $0, %eax 

4 Ls 

5 movqg krdi, ‘Ween 
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6 and] $1, hecEX 

addq Wrpx, Hrax 

8 orqg hrcx, hrax 

9 shrqg rdi Shift right by 1 
10 subq $1， 代 dx 

11 jne . 工 10 

12 rep; ret 


逆向 工程 这 段 代 码 的 操作 ， 然 后 完成 下 面 的 工作 : 

A. 根据 汇编 代码 版 本 填写 C 代码 中 缺失 的 部 分 。 

B. 解释 循环 前 为 什么 没有 初始 测试 也 没有 初始 跳 转 到 循环 内 部 的 测试 部 分 。 

C. 用 自然 语言 描述 这 个 函数 是 计算 什么 的 。 

练习 题 3. 29 在 C 语 言 中 执行 continue 语句 会 导致 程序 跳 到 当前 循环 迭代 的 结尾 。 
当 处 理 continue 语句 时 ， 将 for 循环 翻译 成 while 循环 的 描述 规则 需要 一 些 改进 。 
例如 ， 考 虑 下 面 的 代码 : 

/* Example of for loop containing a continue statement */ 


/* Sum even numbers between 0 and 9 */ 
long sum = 0; 


证 -一 < 个 


long i; 
for (i = 0; i < 10; i++) { 
二 
continue; 
sum 二 = 1; 
} 
A， 如果 我 们 简单 地 直接 应 用 将 for 循环 翻译 到 while 循环 的 规则 ， 会 得 到 什么 呢 ? 
产生 的 代码 会 有 什么 错误 呢 ? 
B， 如 何 用 goto 语句 来 替代 continue 语句 ， 保 证 while 循环 的 行为 同 for 循环 的 行 
为 完全 一 样 ? 


3.6.8 switch 语句 


switch( 开 关 ) 语 句 可 以 根据 一 个 整数 索引 值 进 行 多 重 分 支 (multiway branching)。 在 
处 理 具有 多 种 可 能 结果 的 测试 时 ， 这 种 语句 特别 有 用 。 它 们 不 仅 提高 了 C 代码 的 可 读 性 ， 
而 且 通 过 使 用 跳 转 表 (jump table) 这 种 数据 结构 使 得 实现 更 加 高 效 。 跳 转 表 是 一 个 数组 ， 
表 项 i 是 一 个 代码 段 的 地 址 ， 这 个 代码 段 实 现 当 开关 索引 值 等 于 :时 程序 应 该 采取 的 动作 。 
程序 代码 用 开关 索引 值 来 执行 一 个 跳 转 表 内 的 数组 引用 ， 确 定 跳 转 指令 的 目标 。 和 使 用 一 
组 很 长 的 if-else 语句 相 比 ， 使 用 跳 转 表 的 优点 是 执行 开关 语句 的 时 间 与 开关 情况 的 数 
量 无 关 。GCC 根据 开关 情况 的 数量 和 开关 情况 值 的 黎 玻 程度 来 翻译 开关 语句 。 当 开关 人情 
况 数量 比较 多 (例如 4 个 以 上 )， 并 且 值 的 范围 跨度 比较 小 时 ， 就 会 使 用 跳 转 表 。 

3-22a 是 一 个 C 语言 switch 语句 的 示例 。 这 个 例子 有 些 非 常 有 意思 的 特征 ， 包 括 
情况 标号 (case label) 跨 过 一 个 不 连续 的 区 域 (对 于 情况 101 和 105 没有 标号 ) ， 有 些 情 况 有 
多 个 标号 (情况 104 和 106)， 而 有 些 情况 则 会 沙 入 其 他 情况 之 中 (情况 102)， 因 为 对 应 该 
情况 的 代码 段 没 有 以 break 语句 结尾 。 

图 3-23 是 编译 switch eg 时 产生 的 汇编 代码 。 这 段 代码 的 行为 用 C 语言 来 描述 就 是 
图 3-22b 中 的 过 程 switch eg impl。 这 段 代码 使 用 了 GCC 提供 的 对 跳 转 表 的 支持 ， 这 是 
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对 C 语言 的 扩展 。 数 组 jt 包含 7 个 表 项 ， 每 个 都 是 一 个 代码 块 的 地 址 。 这 些 位 置 由 代码 
中 的 标号 定义 ， 在 jt 的 表 项 中 由 代码 指针 指明 ， 由 标号 加 上 “&&g’ 前缀 组成。( 回 想 运 算 符 
& 创建 一 个 指向 数据 值 的 指针 。 在 做 这 个 扩展 时 ，GCC 的 作者 们 创造 了 一 个 新 的 运算 符 
&&， 这 个 运算 符 创建 一 个 指向 代码 位 置 的 指针 ,) 建 议 你 研究 一 下 C 语言 过 程 switch eg 
impl， 以 及 它 与 汇编 代码 版 本 之 间 的 关系 。 


void switch_eg_impl (long x, long D， 





1 
2 long *dest) 
3 攻 
4 /* Table of code pointers */ 
5 static void *jt[7] = 荆 
void switch_eg(long x, long 1n, 6 &&loc_A, &&loc_def, &&loc_B, 
long *dest) 7 &&loc_C, &&loc _D, &&loc_def, 
{ 8 &&loc_D 
long val = x; 9 ); 
unsigned long index = n - 100,， 
switch (n) { long val; 
case 100: if (index > 6) 
val *= 13; goto loc_def; 
break ; /* Multiway branch */ 
goto *jt[index]; 
case 102: 
val += 10; 18 loc_A: /* Case 100 */ 
/* Fall through */ val = x * 13; 
goto done ; 
case 103: loc_B: /* Case 102 */ 
val += 11; = XX 10: 
break; /* Fall through */ 
l0¢_C: /* Case 103 */ 
case 104: Val sm XX 机 1 
case 106: goto done ; 
Val *= 几时 7 loc_D: /* Cases 104, 106 */ 
break ; Val = XxX * X; 
goto done ; 
default : loc_def: /* Default case */ 
val = 0; val = 0; 
} done: 
*dest = val; *dest 
} 
a ) switchi 语 句 b ) 翻译 到 扩展 的 C 语 言 
站 3-22 switch 语句 示例 以 及 翻译 到 扩展 的 C 语言 。 该 翻译 给 出 了 跳 转 表 jt 的 结构 ， 


以 及 如 何 访问 它 。 作 为 对 C 语言 的 扩展 ，GCC 支持 这 样 的 表 


原始 的 C 代码 有 针对 值 100、102-104 和 106 的 情况 ， 但 是 开关 变量 n 可 以 是 任意 整数 。 编 
译 器 首先 将 n 减 去 100， 把 取 值 范围 移 到 0 和 6 之 间 ， 创 建 一 个 新 的 程序 变量 ， 在 我 们 的 C 版 
本 中 称 为 index。 补 码 表示 的 负数 会 映射 成 无 符号 表示 的 大 正 数 ， 利 用 这 一 事实 ， 将 index 看 
作 无 符号 值 ， 从 而 进一步 简化 了 分 文 的 可 能 性 。 因 此 可 以 通过 测试 index 是 否 大 于 6 来 判定 
index 是 否 在 0 一 6 的 范围 之 外 。 在 C 和 汇编 代码 中 ， 根 据 index 的 值 ， 有 五 个 不 同 的 跳 转 位 
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置 : loc A( 在 汇编 代码 中 标识 为 .L3)，loc B(.L5)，1loc C(.L6)，1loc D(.L7) 和 loc def 
(.L8)， 最 后 一 个 是 默认 的 目的 地 址 。 每 个 标号 都 标识 一 个 实现 某 个 情况 分 支 的 代码 块 。 在 C 
和 汇编 代码 中 ， 程 序 都 是 将 index 和 6 做 比较 ， 如 果 大 于 6 就 跳 转 到 默认 的 代码 处 。 





void switch_eg(long x, long n, long *dest) 
X in Krdi, n in Yrsi, dest im Yrdx 






















1 switch_eg: 

2 subg $100, hrsi Compute index = n-100 
3 cmpq $6, hrsi Compare index:6 
4 ja .1L8 If >, goto loc_def 
5 jmp *,L4( ,hrsi,8) Goto *jt[index] 
6 ol loc. A: 

7 leaq (%rdi,%rdi,2), hrax 3*X 

8 leaqg (Wrdi,%rax,4), hrdi val = 13*x 

9 jmp .2 Goto done 

10 ‘LD: loc_B: 

11 addq $10, %rdi XxXx=xX+10 

12 sO loc. C1 

13 addq 中 4 站。 Ed val =x+11 

14 jmp .L2 Goto done 

15 ee loc_D: 

16 imulq  %rdi, %rdi Val =x*xX 

地 jmp .L2 Goto done 

18 LB: loc_def: 

19 movl $0, Wedi val = 0 

20 bi done: 

21 movVq Srdi, (Chrarx) *dest = val 


Return 


图 3-23 图 3-22 中 switch 语句 示例 的 汇编 代码 


执行 switch 语句 的 关键 步骤 是 通过 跳 转 表 来 访问 代码 位 置 。 在 C 代码 中 是 第 16 行 ， 
一 条 goto 语句 引用 了 跳 转 表 jt。GCC 支持 计算 goto(Ccomputed goto)， 是 对 C 语言 的 扩 
展 。 在 我 们 的 汇编 代码 版 本 中 ， 类 似 的 操作 是 在 第 5 行 ，jmp 指令 的 操作 数 有 前 级 “*”， 
表明 这 是 一 个 间接 跳 转 ， 操 作 数 指定 一 个 内 存 人 位置， 索引 由 寄存 器 srsi 给 出 ， 这 个 寄存 
髓 保存 着 index 的 值 。( 我 们 会 在 3. 8 节 中 看 到 如 何 将 数组 引用 翻译 成 机 器 代码 。) 

C 代码 将 跳 转 表 声 明 为 一 个 有 7 个 元 素 的 数组 ， 每 个 元 素 都 是 一 个 指向 代码 位 置 的 指 
针 。 这 些 元 素 跨 越 index 的 值 0 一 6， 对 应 于 mn 的 值 100 一 106。 可 以 观察 到 ， 跳 转 表 对 重 
复 情况 的 处 理 就 是 简单 地 对 表 项 4 和 6 用 同样 的 代码 标号 (loc D)， 而 对 于 缺失 的 情况 的 
处 理 就 是 对 表 项 1 和 5 使 用 默认 情况 的 标号 (loc def)。 

在 汇编 代码 中 ， 跳 转 表 用 以 下 声明 表示 ， 我 们 添加 了 一 些 注释 : 


1 .Section .rodata 

2 .align 8 Align address to multiple of 8 
3 .L4: 

4 .quad .L3 Case 100: loc_4 

3 ,quad :L8 Case 101: loc_def 

6 .quad ‘LS5 Case 102: loc_B 

7 .quad .LL6 Case 103: loc_C 

8 .quad “Lf Case 104: loc_D 

9 .quad . 工 8 Case 105: loc_def 

10 .quad a Case 106: loc_D 


这 些 声明 表明 ， 在 叫做 “.roqata” (只 谈 数 据 ，Read-Only Data) 的 目标 代码 文件 的 
段 中 ， 应 该 有 一 组 7 个 “四 ” 字 (8 个 字 市 )， 每 个 字 的 值 都 是 与 指定 的 汇编 代码 标号 ( 例 
如 .23) 相 关联 的 指令 地 址 。 标 号 .4 标记 出 这 个 分 配 地 址 的 起 始 。 与 这 个 标号 相对 应 的 地 
址 会 作为 间接 跳 转 (第 5 行 ) 的 基地 址 。 

不 同 的 代码 块 (C 标号 loc A 到 loc D 和 loc def) 实 现 了 switch 语句 的 不 同 分 支 。 它 
们 中 的 大 多 数 只 是 简单 地 计算 了 val 的 值 ， 然 后 跳 转 到 函数 的 结尾 。 类 似 地 ， 汇 编 代码 块 计 
算 了 寄存 器 srdi 的 值 ， 并 且 跳 转 到 函数 结尾 处 由 标号 .52 指示 的 位 置 。 只 有 情况 标号 102 的 
代码 不 是 这 种 模式 的 ， 正 好 说 明 在 原始 C 代码 中 情况 102 会 落 到 情况 103 中 。 具 体 处 理 如 下 : 
以 标号 .15 起 始 的 汇编 代码 块 中 ， 在 块 结尾 处 没有 jmp 指令 ， 这 样 代码 就 会 继续 执行 下 一 个 块 。 
类 似 地 ，C 版 本 switch eg impl 中 以 标号 loc B 起 始 的 块 的 结尾 处 也 没有 goto 语句 。 

检查 所 有 这 些 代码 需要 很 仔细 的 研究 ， 但 是 关键 是 领会 使 用 跳 转 表 是 一 种 非常 有 效 的 
实现 多 重 分 支 的 方法 。 在 我 们 的 例子 中 ， 程 序 可 以 只 用 一 次 跳 转 表 引 用 就 分 文 到 5 个 不 同 
的 位 置 。 甚 至 当 switch 语句 有 上 特种 情况 的 时 候 ， 也 可 以 只 用 一 次 跳 转 表 访 问 去 处 理 。 
评 台 练习 题 3. 30 下 面 的 C 函数 省 略 了 switch 语句 的 主体 。 在 C 代码 中 ， 情 况 标号 是 不 

连续 的 ， 而 有 些 情 况 有 多 个 标号 。 

void switch2(long x, long *dest) 荆 

long val = 0; 
switch (x) { 


Body of switch statement omitted 


上 
*dest = Val 


} 
在 编译 该 函数 时 ，GCC 为 程序 的 初始 部 分 生成 了 以 下 汇编 代码 ， 变 量 x 在 寄存 器 %$rdi 中 : 


void switch2(1long xXx, long *dest) 


XX in Wradi 


1 switch2: 

2 addq $1, hrdi 
3 cmpq $8, Wrdi 
4 ja ‘L2 

5 jmp *.L4( ,hrdi ,8) 
为 跳 转 表 生 成 以 下 代码 : 
] .L4: 

2 .quad 二 9 

3 .quad .LS 

4 .duad .L6 

5 .duad Nh 

6 .quad .二 之 

7 ,quad L717 

8 .quad  .L8 

9 .duad “2 

10 .qduad .Lb 


根据 上 述 信 息 回 答 下 列 问题 ， 
A. switch 语句 内 情况 标号 的 值 分 别 是 多 少 ? 
B.C 代码 中 哪些 情况 有 多 个 标号 ? 
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证 红 练习 题 3.31 对 于 一 个 通用 结构 的 C 函数 switcher: 


void switcher(long a, long b, long c, long *dest) 
{ 
long val; 
switch(a) { 
case : /* Case A */ 
BE ; 
/* Fall through */ 
case /* Case B */ 
Val = - 
break ; 
case ) /* Case C */ 
case : /* Case D */ 
val = 3 
break; 
case : /* Case 下 */ 
Val = 5 
break ; 
default: 
Val = r 
} 
*dest = val,; 
} 


GCC 产生 如 图 3-24 所 示 的 汇编 代码 和 跳 转 表 。 


Void switcher(long a, Jong b, long c¢, long *dest) 


a in rdi, bb in %rsi, ¢ in %rdx, dest ini %rcx 
switcher: 





cmpq $7, Wrdi 
ja .12 
jmp *.LA4(,%rdi ,8) 
.Section .rodata 
| Pr | 
xorqg $15, Wrsi 
moVq hrsi, hrdx 
pc 
leaqg i112 hrQr), Brai 
jmp :L6 
| 
(Xrdx, hrei) , Wrai < 
$2 Nrad 3 
‘LO 4 
5 
%rsi, %rdi 6 
7 
%rdi, (%rcx) 8 
9 
a ) 代码 b ) 跳 转 表 
图 3-24 练习 题 3. 31 的 汇编 代码 和 跳 转 表 


填写 C 代码 中 缺失 的 部 分 。 除 了 情况 标号 C 和 DD 的 顺序 之 外 ， 将 不 同情 况 填 入 
这 个 模板 的 方式 是 唯一 的 。 
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3. 7 过程 

过 程 是 软件 中 一 种 很 重要 的 抽象 。 它 提供 了 一 种 封装 代码 的 方式 ， 用 一 组 指定 的 参数 和 一 个 可 
选 的 返回 值 实现 了 某 种 功能 。 然 后 ， 可 以 在 程序 中 不 同 的 地 方 调 用 这 个 函数 。 设 计 恨 好 的 软件 用 过 程 
作为 抽象 机 制 ， 隐 藏 某 个 行为 的 具体 实现 ， 同 时 又 提供 清晰 简洁 的 接口 定义 ， 说 明 要 计算 的 是 哪些 
什 ， 过 程 会 对 程序 状态 产生 什么 样 的 影响 。 不 同 编程 语言 中 ， 过 程 的 形式 多 样 : 函数 (function) 、 方 
法 Cmethod) 、 子 例 程 (Subroutine) 、 处 理 困 数 (handler) 等 等 ， 但 是 它们 有 一 些 共 有 的 特性 。 

要 提供 对 过 程 的 机 需 级 支持， 必须 要 处 理 许 多 不 同 的 属性 。 为 了 讨论 方便 ， 假 设 过 程 
P 调用 过 程 0。，Q 执行 后 返回 到 P。 这 些 动作 包括 下 面 一 个 或 多 个 机 制 : 

传递 控制 。 在 进入 过 程 Q 的 时 候 ， 程 序 计数 需 必 须 被 设置 为 Q 的 代码 的 起 始 地 址 ， 然 
后 在 返回 时 ， 要 把 程序 计数 需 设 置 为 PE 中 调用 Q 后面 那 条 指令 的 地 址 。 

传递 数据 。P 必须 能 够 癌 0 提供 一 个 或 多 个 参数 ，Q 必须 能 够 向 PE 返回 一 个 值 。 

分 配 和 释放 内 存 。 在 开始 时 ，Q 可 能 需要 为 局 部 变量 分 配 空 间 ， 而 在 返回 前 ， 又 必须 
释放 这 些 存 储 空间 。 

x86-64 的 过 程 实 现 包 括 一 组 特殊 的 指令 和 一 些 对 机 器 资源 (例如 寄存 器 和 程序 内 存 ) 使 
用 的 约定 规则 。 人 们 花 了 大 量 的 力气 来 尽量 减少 过 程 调用 的 开销 。 所 以 ， 它 遵循 了 被 认为 
是 最 低 要 求 策 略 的 方法 ， 只 实现 上 述 机 制 中 每 个 过 程 所 必需 的 那些 。 接 下 来 ， 我 们 一 步 步 
地 构建 起 不 同 的 机 制 ， 先 描述 控制 ， 再 描述 数据 传递 ， 最 后 是 内 存 管理 。 
3.7.1 运行 时 栈 

C 语言 过 程 调用 机 制 的 一 个 关键 特性 (大 多 数 入 
其 他 语言 也 是 如 此 ) 在 于 使 用 了 栈 数据 结构 提供 的 
后 进 先 出 的 内 存 管 理 原 则 。 在 过 程 P 调 用 过 程 0 
的 例子 中 ， 可 以 看 到 当 @ 在 执行 时 ，P 以 及 所 有 
在 回 上 追溯 到 P 的 调用 链 中 的 过 程 ， 都 是 暂时 被 
挂 起 的 。 当 Q 运 行 时 ， 它 只 需要 为 局 部 变量 分 配 
新 的 存储 空间 ， 或 者 设置 到 另 一 个 过 程 的 调用 。 
另 一 方面 ， 当 0 返回 时 ， 任 何 它 所 分 配 的 局 部 存 “地 天 
s 间 都 可 以 被 释放 。 因 此 ， 程 序 可 以 用 栈 来 管 

它 的 过 程 所 需要 的 存储 空间 ， 栈 和 程序 寄存 需 
ERA ER 
当 P 调 用 @ 时 ， 控 制 和 数据 信息 添加 到 栈 尾 。 当 了 
返回 时 ， 这 些 信息 会 释放 掉 。 

如 3.4.4 节 中 讲 过 的 ，x86-64 的 栈 问 低地 
址 方向 增长 ， 而 栈 指 针 %rsp 指向 栈 顶 元 素 。 可 
以 用 pushq 和 popq 指令 将 数据 存 人 栈 中 或 是 
hn di 
似 地 ， 可 以 通过 增加 楼 指针 来 释放 上 

当 x86-64 过 程 需要 的 存储 空 问 起 册 寄存 图 3-25 通用 的 栈 帧 结构 ( 栈 用 来 传递 参数 、 存 
能 够 存放 的 大 小 时 ， 就 会 在 栈 上 分 配 空 间 。 这 储 返 回信 息 、 保 存 寄 存 器 ， 以 及 局 部 
个 部 分 称 为 过 程 的 栈 帧 (stack fram)。 图 3-25 人 存储。 省 略 了 不 必要 的 部 分 ) 


较 早 的 帧 


调用 函数 
P 的 帧 











被 保存 的 寄存 器 


正在 执行 的 
消 数 @ 的 帧 
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给 出 了 运行 时 栈 的 通用 绪 构 ， 包 括 把 它 划 分 为 栈 帧 。 当 前 正在 执行 的 过 程 的 帧 总 是 在 杰 
项 。 当 过 程 P 调 用 过 程 Q 时， 会 把 返回 地 址 压 人 栈 中 ， 指 明 当 @ 返 回 时 ， 要 从 程序 的 哪 
个 位 置 继续 执行 。 我 们 把 这 个 返回 地 址 当做 P 的 栈 帧 的 一 部 分 ， 因 为 它 存放 的 是 与 P 相关 
的 状态 。& 的 代码 会 扩展 当前 栈 的 边界 ， 分配 它 的 栈 帧 所 需 的 空间 。 在 这 个 空间 中 ， 它 可 
以 保存 寄存 顺 的 值 ， 分 配 局 部 变量 空间 ， 为 它 调用 的 过 程 设 置 参 数 。 大 多 数 过 程 的 栈 帧 都 
是 定 长 的 ， 在 过 程 的 开始 就 分 配 好 了 。 但 是 有 些 过 程 需要 变 长 的 帧 ， 这 个 问题 会 在 3. 10. 5 
节 中 讨论 。 通 过 寄存 器 ， 过 程 卫 可 以 传递 最 多 6 个 整数 值 (也 就 是 指针 和 整数 )， 但 是 如 果 
Q 需 要 更 多 的 参数 ，P 可 以 在 调用 Q 之 前 在 目 己 的 栈 帧 里 存储 好 这 些 参 数 。 

为 了 提高 空间 和 时 间 效 率 ，x86-64 过 程 只 分 配 自己 所 需要 的 栈 帧 部 分 。 例 如 ， 许 多 过 
程 有 6 个 或 者 更 少 的 参数 ， 那 么 所 有 的 参数 都 可 以 通过 寄存 器 传递 。 因 此 ， 图 3-25 中 男 
出 的 某 些 栈 帧 部 分 可 以 省 略 。 实 际 上 ， 许 多 函数 甚至 根本 不 需要 栈 帧 。 当 所 有 的 局 部 变量 
都 可 以 保存 在 寄存 磺 中 ， 而 且 该 函数 不 会 调用 任何 其 他 函数 (有 时 称 之 为 叶 了 于 过程 ， 此 时 
把 过 程 调用 看 做 树 结构 ) 时 ， 就 可 以 这 样 处 理 。 例 如 ， 到 目前 为 止 我 们 仔细 审视 过 的 所 有 
阴 数 部 不 需要 栈 帧 。 


3. 7.2 转移 控制 


将 控制 从 函数 转移 到 函数 Q 只 需要 简单 地 把 程序 计数 器 (PC) 设 置 为 2 的 代码 的 起 始 位 
置 。 不 过 ， 当 稍 后 从 Q 返 回 的 时 候 ， 处 理 需 必须 记录 好 它 需 要 继续 P 的 执行 的 代码 位 置 。 在 
x86-64 机 需 中 ， 这 个 信息 是 用 指令 call 8 调用 过 程 0 来 记录 的 。 该 指令 会 把 地 址 A 压 人 栈 
中 ， 并 将 PC 设置 为 6 的 起 始 地 址 。 压 入 的 地 址 A 被 称 为 返回 地 址 ， 是 紧 跟 在 call 指令 后 
面 的 那 条 指令 的 地 址 。 对 应 的 指令 ret 会 从 栈 中 弹出 地 址 A， 并 把 PC 设置 为 A。 
下 表 给 出 的 是 call 和 ret 指令 的 一 般 形式 : 


call Lapez 过 程 调 用 


call “Operand 过 程 调 用 
从 过 程 调 用 中 返回 







(这 些 指令 在 程序 OBJDUMP 产生 的 反 汇 编 输出 中 被 称 为 callg 和 retq。 添 加 的 后 缀 9” 
只 是 为 了 强调 这 些 是 x86-64 版 本 的 调用 和 和 返回， 而 不 是 IA32 的 。 在 x86-64 汇编 代码 中 ， 
这 两 种 版 本 可 以 互 换 。) 

call 指令 有 一 个 目标 ， 即 指明 被 调用 过 程 起 始 的 指令 地 址 。 同 跳 转 一 样 ， 调 用 可 以 
是 直接 的 ， 也 可 以 是 间接 的 。 在 汇编 代码 中 ， 直 接 调 用 的 目标 是 一 个 标号 ， 而 间接 调用 的 
目标 是 * 后 面 跟 一 个 操作 数 指 示 符 ， 使 用 的 是 图 3-3 中 描述 的 格式 之 一 。 

图 3-26 说 明了 3. 2. 2 节 中 介绍 的 multstore 和 main 困 数 的 call 和 ret 指令 的 执行 
情况 。 下 面 是 这 两 个 函数 的 反 汇 编 代码 的 节选 ; 

Beginning of function multstore 
1 0000000000400540 <multstore>: 


2 400540: 53 push hrbx 
3 400541: 48 89 d3 mOV hrdx ,hrbx 


Return from function multstore 


4 40054d: c3 retq 
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Call to multstore from main 
5 400563: ee8 d8 ff ff ff callqgq 400540 <multstore> 
6 400568: 48 8b 54 24 08 mOV Ox8(%hrsp) ,hrdx 


在 这 段 代码 中 我 们 可 以 看 到 ， 在 main 困 数 中 ， 地 址 为 0x400563 的 call 指令 调用 也 
数 multstore。 此 时 的 状态 如 图 3-26a 所 示 ， 指 明了 栈 指 针 %rsp 和 程序 计数 器 %$rip 的 值 。 
call 的 效果 是 将 返回 地 址 0x400568 压 人 栈 中 ,并 跳 到 晒 数 multstore 的 第 一 条 指令 ,地 
址 为 0x0400540( 图 3-26b) 。 琐 数 multstore 继续 执行 ， 直 到 过 到 地 址 0x40054d 处 的 
ret 指令 。 这 条 指令 从 栈 中 弹出 值 0x400568， 然 后 跳 转 到 这 个 地 址 ， 就 在 call 指令 之 
后 ， 继 续 main 函数 的 执行 。 


0x400563 
srSsp|0x7fffffffe840 















0x400540 
Ox7fffffffe838 


0x400568 
0x7fffffffe840 





a ) 执行 call b ) call 执 行 之 后 c ) ret 执 行 之 后 


图 3-26 call 和 ret 图 数 的 说 明 。cal1l 指令 将 控制 转移 到 一 个 函数 的 起 始 ， 
而 ret 指令 返回 到 这 次 调用 后 面 的 那 条 指令 


再 来 看 一 个 更 详细 说 明 在 过 程 间 传 递 控制 的 例子 ， 图 3-27a 给 出 了 两 个 果 数 top 和 leaf 
的 反 汇 编 代 码 ， 以 及 main 图 数 中 调用 top 处 的 代码 。 每 条 指令 都 以 标号 标 出 : LI 一 L2 
(leaf 中 )，Tl 一 T4(Cmain 中 ) 和 ML 一 M2Cmnain 中 )。 该 图 的 b 部 分 给 出 了 这 段 代 码 执 


Disassembly of leaf(Iong y) 

y in rdi 

0000000000400540 <leaf>: 
400540: 48 8d 47 02 Ox2C%rdi), Wrax 五 7 y+2 
400544: Cc3 L2: Return 


0000000000400545 <top>: 
Disassembly of top(Iong x) 


X in Yradai 


400545: 48 83 ef 05 $Ox5 ,hrdi : X-5 

400549: e8 f2 ff ff ff 400540 <leaf> : Call leaf (x-5) 
40054e: 48 01 c0 Wrax, hrax : Double result 
400551: 3 : Return 


Caill to top from function main 
40055b: ee8 e5 ff ff ff callgq 400545 <top> : Call top(100) 
400560: 48 89 c2 mov Wrax, hrdx : Resume 





a ) 说 明 过 程 调 用 和 返回 的 反 汇 编 代码 


加 3-27 包含 过 程 调 用 和 返回 的 程序 的 执行 细节 。 使 用 栈 来 存储 返回 地 址 
使 得 能 够 返回 到 过 程 中 正确 的 位 置 


状态 信 (指令 执行 前 ) 
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标号 PC 指令 Srdi %rsp *$GrSp 

MI 0x40055b Ox7fffffffe820 一 调用 top (100) 
0x400555 Ox7fffffffe818 0x400560 | 进入 top 
0x400559 0x7fffffffe818 0x400560 | 调用 leaf (95) 
0x400540 Ox7fffffffe810 0x40054e | 进入 leaf 
0x400544 Ox7fffffffe810 0x40054e | 从 leaf 返 回 97 
0x40054e 0x7fffffffe818 0x400560 | 继续 top 
0x400551 Ox7fffffffe818 0x400560 | 从 top 返 回 194 
0x400560 0x7EEEEfffe820 一 继续 main 

) 示例 代码 的 执行 过 程 
妈 3-27 《 续 ) 


行 的 详细 过 程 ，main 调用 top (100) ， 然 后 top 调用 leaf (95)。 卫 数 leaf 向 top 返回 
97， 然 后 top 向 main 返回 194。 前 面 三 列 描述 了 被 执行 的 指令 ， 包括 指令 标号 、 地 址 和 
指令 类 型 。 后 面 四 列 给 出 了 在 该 指令 执行 前 程序 的 状态 ， 包 括 寄 人 存 套 srdi、 srax 和 %rsp 
的 内 容 ， 以 及 位 于 栈 项 的 值 。 和 仔细 研究 这 张 表 的 内 容 ， 它 们 说 明了 运行 时 栈 在 管理 支持 过 
程 调用 和 返回 所 需 的 存储 空间 中 的 重要 作用 。 

leaf 的 指令 L1 将 %rax 设置 为 97， 也 就 是 要 返回 的 值 。 然 后 指令 L2 返回 ， 它 从 栈 中 
弹出 0x400054e。 通 过 将 PC 设置 为 这 个 弹出 的 值 ， 控 制 转 移 回 top 的 T3 指令 。 程 序 成 功 
完成 对 leaf 的 调用 ， 返 回 到 top。 

指令 T3 将 srax 设置 为 194， 也 就 是 要 从 top 返回 的 值 。 然 后 指令 T4 返回 ， 它 从 栈 中 
弹出 0x4000560， 因 此 将 PC 设置 为 main 的 M2 指令 。 程 序 成 功 完 成 对 top 的 调用 ， 返 回 
到 main。 可 以 看 到 ， 此 时 栈 指 针 也 恢复 成 了 0x7fffffffe820， 即 调用 top 之 前 的 值 。 

可 以 看 到 ， 这 种 把 返回 地 址 压 入 栈 的 简单 的 机 制 能 够 让 函数 在 稍 后 返回 到 程序 中 正确 
的 点 。C 语言 (以 及 大 多 数 程序 语言 ) 标 准 的 调用 /返回 机 制 刚好 与 栈 提供 的 后 进 先 出 的 内 
存 管 理 方法 吻合 。 
芭 习 练习 题 3. 32 下 面 列 出 的 是 两 个 函数 first 和 1last 的 反 汇 编 代 码 ， 以 及 main 函数 

调用 first 的 代码 : 


Disassembly of last(long u, long Vv) 
D in Yrdi, Vv ID ¥rsi 


0000000000400540 <last>: 


1 

2 400540: 48 89 f8 mov hrdi ,hrax Lis 

3 400543: 48 0f af c6 imul %rsi,hrax L2: HwT 

4 400547: c3 retq L3: Return 
Disassembly of first(long xX) 
x in Krdi 

5 0000000000400548 <first>: 

6 400548: 48 8d 77 01 lea Oxil(%rdi), hrsi Fi1: x+1 

7 40054c: 48 83 ef 01 sub $0Ox1 ,hrdi F2: x-1 

8 400550: ee8 eb ff ff ff callq 400540 <last> F3: Call last(x-1,x+1) 
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9 400555: f3 c3 repz retq Fd: Return 
10 400560: 8 e3 ff ff ff callq 400548 <first> Mi: Call first(10) 
11 400565: 48 89 c2 mov hrax, hrdx M2; Resume 


每 条 指令 都 有 一 个 标号 ， 类 似 于 图 3-27a。 从 main 调用 first (10) 开 始 ， 到 程序 
返回 main 时 为 止 ， 填写 下 表 记 录 指 令 执 行 的 过 程 。 











| Pe | NW | ww [wm | wo [rv] We 
EC ES I | i 7 We | 有 sam 
EE hh 
| | 
EE EE EE EE 一 
ah 
al ll [一 
al ll 

mwl ll ll 





3.7.3 数据 传送 


当 调 用 一 个 过 程 时 ， 除 了 要 把 控制 传递 给 它 并 在 过 程 返回 时 再 传递 回来 之 外 ， 过 程 调 
用 还 可 能 包括 把 数据 作为 参数 传递 ， 而 从 过 程 返回 还 有 可 能 包括 返回 一 个 值 。x86-64 中 ， 
大 部 分 过 程 间 的 数据 传送 是 通过 寄存 器 实现 的 。 例 如 ， 我们 已 经 看 到 无 数 的 函数 示例 ， 参 
数 在 寄存 器 %$rdi、%rsi 和 其 他 寄存 器 中 传递 。 当 过 程 P 调 用 过 程 Q 时 ， 的 代码 必须 首先 
把 参数 复制 到 适当 的 寄存 器 中 。 类 似 地 ， 当 8 返回 到 PP 时 , P 的 代码 可 以 访问 寄存 器 Srax 
中 的 返回 值 。 在 本 节 中 ， 我们 更 详细 地 探讨 这 些 规则 。 

x86-64 中 ， 可 以 通过 寄存 器 最 多 传递 6 个 整 型 (例如 整数 和 指针 ) 参 数 。 寄 存 器 的 使 用 
是 有 特殊 顺序 的 ， 寄 存 器 使 用 的 名 字 取 决 于 要 传递 的 数据 类 型 的 大 小 ， 如 图 3-28 所 示 。 
会 根据 参数 在 参数 列表 中 的 顺序 为 它们 分 配 寄存 器 。 可 以 通过 64 位 寄存 器 适当 的 部 分 访 
问 小 于 64 位 的 参数 。 例 如 ， 如 果 第 一 个 参数 是 32 位 的 ， 那 么 可 以 用 %edi 来 访问 它 。 













参数 数量 
wk | | aa- 
| | | we | we | we | Ww 
| | er | ew | wr | wa | wa 
| | | | | 
| | | we | ww | we 


图 3-28 ”传递 函数 参数 的 寄存 器 。 寄 存 器 是 按照 特殊 顺序 来 使 用 的 ， 
而 使 用 的 名 字 是 根据 参数 的 大 小 来 确定 的 


如 果 一 个 函数 有 大 于 6 个 整 型 参数 ， 超 出 6 个 的 部 分 就 要 通过 栈 来 传递 。 假 设 过 程 P 
调用 过 程 0O， 有 交 个 整 型 参数 ， 且 羡 字 6。 那么 的 代码 分 配 的 栈 帧 必须 要 能 容纳 7 到? 
号 参数 的 存储 空间 ， 如 图 3-25 所 示 。 要 把 参数 1 一 6 复制 到 对 应 的 寄存 器 ， 把 参数 7~n 放 
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到 栈 上 ， 而 参数 7 位 于 栈 顶 。 通 过 栈 传递 参数 时 ， 所 有 的 数据 大 小 都 向 8 的 倍数 对 齐 。 参 
数 到 位 以 后 ， 程 序 就 可 以 执行 call 指令 将 控制 转移 到 过 程 0 了。 过 程 0 可 以 通过 寄存 器 
访问 参数 ， 有 必要 的 话 也 可 以 通过 栈 访问 。 相 应 地 ， 如 果 @ 也 调用 了 某 个 有 超过 6 个 参数 
的 图 数 ， 它 也 需要 在 自己 的 栈 帧 中 为 超出 6 个 部 分 的 参数 分 配 空 间 ， 如 图 3-25 中 标号 为 
“参数 构造 区 ”的 区 域 所 示 。 

作为 参数 传递 的 示例 ， 考 虑 图 3-29a 所 示 的 C 图 数 proc。 这 个 函数 有 8 个 参数 ， 包 括 
字 节 数 不 同 的 整数 (8、4、2 和 1) 和 不 同类 型 的 指针 ， 每 个 都 是 8 字 节 的 。 


void proc(long 
int 
short 
char 


*alp += al ; 
*a2p += a2; 
*a3p +=. a3; 
*a4p += a4; 





a ) C 代 码 


void proc(ai, aip, a2, a2p, a3, a3p, 
Arguments passed as follows: 

al in Wrdi (64 bits) 

alp in Yrsi (64 bits) 

a2 in Kedx (32 bits) 

a2p ID Wrcx (64 bits) 

a3 in %r8w (16 bits) 

a3p in %r9 (64 bits) 

ad at Krsp+8 ( 8 bits) 


adp at Yrsp+16 (64 bits) 


proc: 

movg 16(%rsp), hrax Fetch adp (64 bits) 
addq hrdi, (hrsi) *alp += al (64 bits) 
addl edx, (%rcx) *a2p += a2 (32 bits) 
addw hr8w, (%r9) *a3p += a3 (16 bits) 
movl 8(%rsp), hedx Fetch a4 ( 8 bits) 
addb hdl, (hrax) *adp += a4 ( 8 bits) 
ret Return 





b ) 生成 的 汇编 代码 
图 3-29 有 多 个 不 同类 型 参数 的 函数 示例 。 参 数 1 一 6 通过 寄存 器 传递 ， 而 参数 7 一 8 通过 栈 传递 


图 3-29b 中 给 出 proc 生成 的 汇编 代码 。 前 面 6 个 参数 通过 寄存 器 传递 ， 后 面 2 个 通 
过 栈 传递 ， 就 像 图 3-30 中 男 出 来 的 那样 。 可 以 看 到 ， 作 为 过 程 调用 的 一 部 分 ， 返 回 地 址 
被 压 人 栈 中 。 因 而 这 两 个 参数 位 于 相对 于 栈 指针 距离 为 8 和 16 的 位 置 。 在 这 段 代 码 中 ， 
我 们 可 以 看 到 根据 操作 数 的 大 小 ， 使 用 了 ADD 指令 的 不 同 版 本 : al(long) 使 用 addqa， 
a2(int) 使 用 addl，a3(short) 使 用 addw， 而 a4(char) 使 用 addb。 请 注意 第 6 行 的 
movl 指令 从 内 存 读 人 4 字 节 ， 而 后 面 的 addb 指令 只 使 用 其 中 的 低位 一 字 节 。 
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0 一 -一 一 栈 指针 grsP 





图 3-30 ”函数 proc 的 栈 帧 结构 。 和 参数 a4 和 a4p 通过 栈 传递 


ES 练习 题 3.33 C 函数 procprob 有 4 个 参数 u、a、vV 和 bb， 每 个 参数 要 么 是 一 个 有 符 
号 数 ， 要 么 是 一 个 指向 有 符号 数 的 指针 ， 这 里 的 数 大 小 不 同 。 该 函数 的 函数 体 如 下 : 
*U += a; 
*V += b; 
return sizeof(a) + sizeof (b); 


编译 得 到 如 下 x86-64 代码 ， 


] procprob: 

2 movslq %edi, %rdi 

3 addq hrdi, (hrdx) 
4 addb nSil, (HFCK) 
5 movl $6, heax 

6 ret 


确定 4 个 和 参数 的 合法 顺序 和 类 型 。 有 两 种 正确 答案 。 


3.7.4 栈 上 的 局 部 存储 


到 目前 为 止 我 们 看 到 的 大 多 数 过 程 示 例 都 不 需要 超出 寄存 器 大 小 的 本 地 存储 区 域 。 不 
过 有 些 时 候 ， 局 部 数据 必须 存放 在 内 存 中 ， 篆 见 的 情况 包括 : 

e 寄存 器 不 足够 存放 所 有 的 本 地 数据 。 

se 对 一 个 局 部 变量 使 用 地 址 运算 符 ‘g”， 因 此 必须 能 够 为 它 产 生 一 个 地 址 。 

e 某 些 局 部 变量 是 数组 或 结构 ， 因 此 必须 能 够 通过 数组 或 结构 引用 被 访问 到 。 在 摘 述 

数组 和 结构 分 配 时 ， 我 们 会 讨论 这 个 问题 。 

一 般 来 说 ， 过 程 通过 减 小 栈 指针 在 栈 上 分 配 空间 。 分 配 的 结果 作为 栈 帧 的 一 部 分 ， 标 
号 为 “局 部 变量 ”， 如 图 3-25 所 示 。 

来 看 一 个 处 理 地 址 运算 符 的 例子 ， 图 3-31a 中 给 出 的 两 个 函数 。 限 数 swap_add 交换 
指针 xp 和 yp 指向 的 两 个 值 ， 并 返回 这 两 个 值 的 和 。 函 数 caller 创建 到 局 部 变量 argl 
和 arg2 的 指针 ， 把 它们 传递 给 swap add。 图 3-31b 展示 了 caller 是 如 何 用 栈 帧 来 实现 
这 些 局 部 变量 的 。caller 的 代码 开始 的 时 候 把 栈 指针 减 挥 了 16; 实际 上 这 就 是 在 栈 上 分 
配 了 16 个 字 节 。S 表示 栈 指 针 的 值 ， 可 以 看 到 这 段 代 码 计算 garg2 为 S 十 8( 第 5 行 )， 而 
&argl 为 S。 因 此 可 以 推断 局 部 变量 argl 和 arg2 存放 在 栈 帧 中 相对 于 栈 指 针 偶 移 量 为 0 
和 8 的 地 方 。 当 对 swap_ ada 的 调用 完成 后 ，caller 的 代码 会 从 栈 上 取出 这 两 个 值 ( 第 
8 一 9 行 )， 计 算 它 们 的 差 ， 再 乘 以 swap add 在 寄存 右 %rax 中 返回 的 值 ( 第 10 行 )。 最 后 ， 
该 函数 把 栈 指针 加 16 ， 释 放 栈 帧 (第 11 行 )。 通 过 这 个 例子 可 以 看 到 ， 运 行 时 栈 提 供 了 一 
种 简单 的 、 在 需要 时 分 配 、 函 数 完成 时 释放 局 部 存储 的 机 制 。 

如 图 3-32 所 示 ， 函 数 call proc 是 一 个 更 复杂 的 例子 ， 说 明 x86-64 栈 行为 的 一 些 特 
性 。 尽 管 这 个 例子 有 点 儿 长 ， 但 还 是 值得 仔细 研究 。 它 给 出 了 一 个 必须 在 栈 上 分 配 局 部 变 
量 存储 空间 的 函数 ， 同 时 还 要 向 有 8 个 参数 的 图 数 proc 传递 值 (图 3-29)。 该 函数 创建 一 
个 栈 帧 ， 如 图 3-33 所 示 。 
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long swap_add(long *xp, long *yp) 
t 


long XX = *xp:; 
long y = *yp; 
*Xp' = 区 
*yp = XX, 
GT 及 区 十 条 ; 


long caller() 
long argl = 534; 
long arg2 = 1057 ; 
long sum = swap_add(&argl, &arg2); 
long difi = argl = arg2; 
return sum * diff; 





a ) swap_add 和 调用 也 数 的 代码 


long caller() 


1 caller; 
2 subq $16, %rsp Allocate 16 bytes for stack frame 
3 movd $534， 《prSP) Store 534 in arg! 
4 movqg $1057, 8(%rsp) Store 1057 in arg2 
5 leaqg 8(hrsp), hrsi Compute &arg2 as second argument 
6 moVdq hrsp, hrdi Compute &argl as first argument 
7 call swap_add Call swap_add(&argl, &arg2) 
8 movVd (HESD) , hEd Get argl 
9 subdq 8(%rsp), hrdx Compute diff = argl - arg2 
10 imulq hrdx, hrax Compute sum * diff 
11 addq $16, hrSP Deallocate stack frame 
12 ret Return 
b ) 调用 函数 生成 的 汇编 代码 
图 3-31 ”过程 定义 和 调用 的 示例 。 由 于 会 使 用 地 址 运算 符 ， 所 以 调用 代码 必须 分 配 一 个 栈 帧 


long call_proc() 


{ 
long x1 = 1; int x2 = 


short x3 = 3; char x4 = 
proc(x1, &x1l, x2, &x2, Xx3, &x3, XxX4, &x4); 
return (xl+x2)*(x3-x4).; 





a ) swap_add 和 调用 函数 的 代码 
图 3-32 调用 在 图 3-29 中 定义 的 函数 proc 的 代码 示例 。 该 代码 创建 了 一 个 栈 帧 
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long call_proc() 





call. proc: 
Set up arguments to proc 
2 subq $32, %rsp Allocate 32-byte stack frame 
3 movg $1, 24(%rsp) Store 1 in gx1 
4 movl $2，20(%rsp) Store 2 in g&x2 
5 moVvw $3, 18(%rsp) Store 3 in gx3 
6 movb $4, 17(%rsp) Store 4 im &x4 
leaq 17CHESD)., WEax Create &x4 
8 movq hrax, 8(hrsp) Store &x4 as argument 8 
9 movl $4, (Xrsp) Store 4 as argument 7 
leaqg 18(%rsp), %r9 Pass &x3 as argument 6 
movl $3, Xr8d Pass 3 as argument 5 
leaqg 20(%rsp), %rcex Pass &x2 as argument 4 
movl $2, hedx Pass 2 as argument 3 
leaqg 24(%hrsp), %rsi Pass &xl as argument 2 
movl $1, Wedi Pass 1 as argument 1 
Call proc 
call proc 
Retrieve changes to memory 
movslq 20(%rsp), %rdx Get X2 and convert to long 
addq 24(hrsp), %rdx Compute xi+x2 
movswl 18(%rsp), heax Get x3 and convert to int 
movsbl 17(%rsp), %ecx Get xd and convert to int 
subl hecx, heax Compute x3-x4 
cltq Convert to long 
imulq %rdx, hrax Compute (x1+x2) * (x3-x4) 
addq $32，%rsp Deallocate stack frame 
ret Return 
b ) 调用 函数 生成 的 汇编 代码 
图 3-32 《〈《 续 ) 


看 看 call proc 的 汇编 代码 (图 3-32b) ， 可 以 看 到 代码 中 一 大 部 分 (第 2 一 15 行 ) 是 为 调 
用 proc 做 准备 。 其 中 包括 为 局 部 变量 和 函数 参数 建立 栈 帧 ， 将 函数 参数 加 载 至 寄存 副 。 如 
图 3-33 所 示 ， 在 栈 上 分 配 局 部 变量 x1 一 x4， 它 们 具有 不 同 的 大 小 : 24 一 31(xl)，20 一 23 
(x2)，18 一 19(x3) 和 17(s3)。 用 leaq 指令 生成 到 这 些 位置 的 指针 (第 7、10、12 和 14 行 )。 
参数 7( 值 为 4) 和 8( 指 向 x4 的 位 置 的 指针 ) 存 放 在 栈 中 相对 于 栈 指针 侦 移 量 为 0 和 8 的 地 方 。 

当 调 用 过 程 proc 时 ， 程 序 会 开始 执行 图 3-29b 中 的 代码 。 如 图 3-30 所 示 ， 参 数 7 和 
8 现在 位 于 相对 于 栈 指 针 仿 移 量 为 8 和 16 的 
地 方 ， 因 为 返回 地 址 这 时 已 经 被 压 人 栈 中 了 。 

当 程 序 返回 call proc 时 ， 代码 会 取出 
4 个 局 部 变量 (第 17 一 20 行 )， 并 执行 最 终 的 





计算 。 在 程序 结束 前 ， 把 栈 指针 加 32， 释 放 参数 8 = sx4 
六 个 - 

se 
3.7.5 寄存 器 中 的 局 部 存储 空间 参数 7 


图 3-33 ”函数 call_proc 的 栈 帧 。 该 栈 帧 包含 局 部 
寄存 器 组 是 唯一 被 所 有 过 程 共享 的 资源 。 变量 和 两 个 要 传递 给 函数 proc 的 参数 
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虽然 在 给 定时 刻 只 有 一 个 过 程 是 活动 的 ， 我 们 仍然 必须 确保 当 一 个 过 程 (调用 者 ) 调 用 男 一 
个 过 程 ( 被 调用 者 ) 时 ， 被 调用 者 不 会 覆盖 调用 者 稍 后 会 使 用 的 寄存 器 值 。 为 此 ，x86-64 采 
用 了 一 组 统一 的 寄存 需 使 用 惯例 ， 所 有 的 过 程 ( 包 括 程序 库 ) 都 必须 遵循 。 

根据 惯例 ， 寄 存 需 &%rbx、srbp 和 s%r12 一 %r15 被 划分 为 被 调用 者 保存 寄存 嚣 。 当 过 程 P 
调用 过 程 0 时，0 必须 保存 这 些 寄存 右 的 值 ， 保 证 它们 的 值 在 8 返回 到 PP 时 与 0 被 调用 时 
是 一 样 的 。 过 程 Q 保存 一 个 寄存 器 的 值 不 变 ， 要 么 就 是 根本 不 去 改变 它 ， 要 么 就 是 把 原始 
值 压 人 栈 中 ， 改 变 寄 存 需 的 值 ， 然 后 在 返回 前 从 栈 中 弹出 旧 值 。 压 人 寄存 器 的 值 会 在 栈 帧 
中 创建 标号 为 “保存 的 寄存 器 ”的 一 部 分 ， 如 图 3-25 中 所 示 。 有 了 这 条 惯例 ，P 的 代码 就 
能 安全 地 把 值 存在 被 调用 者 保存 寄存 器 中 (当然 ， 要 先 把 之 前 的 值 保存 到 栈 上 )， 调 用 Q， 
然后 继续 使 用 寄存 器 中 的 值 ， 不 用 担心 值 被 破坏 。 

所 有 其 他 的 寄存 硕 ， 除 了 栈 指针 grsp， 都 分 类 为 调用 者 保存 寄存 占 。 这 就 意味 着 任何 
图 数 都 能 修改 它们 。 可 以 这 样 来 理解 “调用 者 保存 ”这 个 名 字 : 过 程 P 在 某 个 此 类 寄存 器 
中 有 局 部 数据 ， 然 后 调用 过 程 Q。 因 为 Q 可 以 随意 修改 这 个 寄存 器 ， 所 以 在 调用 之 前 首先 
保存 好 这 个 数据 是 P( 调 用 者 ) 的 责任 。 

来 看 一 个 例子 ， 图 3-34a 中 的 函数 P。 它 两 次 调用 og。 在 第 一 次 调用 中 ， 必 须 保存 x 的 
值 以 备 后 面 使 用 。 类 似 地 ， 在 第 二 次 调用 中 ， 也 必须 保存 Q(y) 的 值 。 图 3-34b 中 ,可 以 看 
到 GCC 生成 的 代码 使 用 了 两 个 被 调用 者 保存 寄存 器 :%rbp 保存 x 和 Srbx 保存 计算 出 来 的 


long P(long x, long y) 
t 
long u = Q(y); 


long V = Q(x); 
return U + v:; 





a ) 调用 函数 


long P(Iong XxX, long y) 
TX in prdis y Bn rsi 


Bs 


OO NN Om Wn 记 WW ND 一 


OO 癌 


i i kh 
tn WW NN 一 


pushq 
pushq 
subqg 
moVdq 
movg 
call 
movg 
movg 
call 
addq 
addq 
poPpq 
popqd 
ret 


儿 3=34 


hrbp 

brbx 

$8, %rsp 
hrdi, %rbp 
rsi, Vrdi 
Q 

Wrax: Xrbx 
rbp, %rdi 
Q 

rbx, Wrax 
$8, %rsp 
rbx 

%rbp 


Save Xrbp 

Save Hrbx 

Ailign stack frame 

Save XxX 

Move y to first argument 
Ca 了 QW(y) 

Save result 

Move x to first arpgument 
Call Q(X) 

Add saved QW(y) to Q(X) 
Dealilocate last part of stack 


Restore Yrbx 


Restore prbp 





b ) 调用 函数 生成 的 汇编 代码 


展示 被 调用 者 保存 寄存 器 使 用 的 代码 。 在 第 一 次 调用 中 ， 


必须 保存 x 的 值 ， 第 二 次 调用 中 ， 必须 保存 Q(y) 的 值 
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Qty) 的 值 。 在 函数 的 开头 ， 把 这 两 个 寄存 顺 的 值 保存 到 栈 中 (第 2 一 3 行 )。 在 第 一 次 调用 0 
之 前 ， 把 参数 x 复制 到 %rbp( 第 5 行 )。 在 第 二 次 调用 @ 之 前 ， 把 这 次 调用 的 结果 复制 到 srbx 
(第 8 行 )。 在 果 数 的 结尾 ，( 第 13 一 14 行 )， 把 它们 从 栈 中 弹出 ， 人 恢复 这 两 个 被 调用 者 保存 寄 
存 露 的 值 。 注 意 它 们 的 弹出 顺序 与 压 人 顺序 相反 ， 说 明了 栈 的 后 进 先 出 规则 。 
攻 汉 练习 题 3. 34 一 个 函数 P 生 成 名 为 a0~a7 的 局 部 变量 ， 然 后 调用 函数 0， 没有 参数 。 
GCC 为 的 第 一 部 分 产生 如 下 代码 : 
long P(long Xx) 
x in %rdi 


Ps 


] 

2 Pushq  %r15 

3 Pushq  %r14 

4 pushq Apr13 

5 Pushq  %r12 

6 Pushq Arbp 

7 pushq  %rbx 

8 subq $24, %rsp 

9 movq Xrdi, “rbx 

10 leaqg 1(%rdi), %r1i5 
11 leaqg 2(%rdi), %ri4 
12 leaqg 3(%rai), %r13 
13 leaqg 4(%rdi), %r12 
14 leaqg 6(%rdi)s LArbp 
15 leaqg 6(%rdi), %hrax 
16 movqg hrax, (hrsp) 
17 leaqg 7(Wrai), Wrdr 
18 movqg %rdx, 8(%rsp) 
19 movl $0, heax 

20 call Q 

A. 确定 哪些 局 部 值 存 储 在 被 调用 者 保存 寄存 器 中 。 


局 


确定 哪些 局 部 变量 存储 在 栈 上 。 
C. 解释 为 什么 不 能 把 所 有 的 局 部 值 都 存储 在 被 调用 者 保存 寄存 器 中 。 


3. 7.6 你 归 过 程 


前 面 已 经 描述 的 寄存 器 和 栈 的 惯例 使 得 x86-64 过 程 能 够 递归 地 调用 它们 自身 。 每 个 
过 程 调用 在 栈 中 都 有 它 目 己 的 私有 空间 ， 因 此 多 个 未 完成 调用 的 局 部 变量 不 会 相互 影 啊 。 
此 外 ， 栈 的 原则 很 自然 地 就 提供 了 适当 的 策略 ， 当 过 程 被 调用 时 分 配 局 部 人 存储 ， 当 返回 时 
释放 存储 。 

图 3-35 给 出 了 递归 的 阶乘 函数 的 C 代码 和 生成 的 汇编 代码 。 可 以 看 到 汇编 代码 使 用 
寄存 器 srbx 来 保存 参数 n， 先 把 已 有 的 值 保 存在 栈 上 (第 2 行 )， 随 后 在 返回 前 恢复 该 什 
(第 11 行 )。 根 据 栈 的 使 用 特性 和 寄存 器 保存 规则 ， 可 以 保证 当 递 归 调 用 rfact (n-1) 返 回 
时 (第 9 行 )，(1) 该 次 调用 的 结果 会 保存 在 寄存 天 srax 中 ，(2) 参 数 n 的 值 仍 然 在 寄存 
胡 $rbx 中 。 把 这 两 个 值 相 乘 就 能 得 到 期 望 的 结 采 。 

从 这 个 例子 我 们 可 以 看 到 ， 递 归 调 用 一 个 函数 本 身 与 调用 其 他 函数 是 一 样 的 。 栈 规则 
提供 了 一 种 机 制 ， 每 次 函数 调用 都 有 它 目 己 私 有 的 状态 信息 (保存 的 返回 位 置 和 被 调用 者 
保存 寄存 器 的 值 ) 存 储 空间 。 如 果 需 要 ， 它 还 可 以 提供 局 部 变量 的 存储 。 栈 分 配 和 释放 的 
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规则 很 日 然 地 就 与 水 数 调用 -返回 的 顺序 匹配 。 这 种 实现 函数 调用 和 返回 的 方法 甚至 对 更 
复杂 的 情况 也 适用 ， 包括 相 互 递 归 调 用 (例如 ， 过 程 P 调 用 CG，Q 再 调用 P)。 


long rfact(long n) 
{ 


long result; 
if (EH < 1) 
result 二 
else 
result = n * rfact(n-1): 
return result; 





a ) C 代 码 


long rfact(long n) 
i dn prds 
riack: 
pushq  %rbx Save Yrbx 
movg Wrdi, Wrbx Store n in callee-saved register 
movl $1, Weax Set return value = 1 
cmpq $1, %rdi Compare n:1 


jle ;L35 If <=, goto done 

leaqg =1Chraiy, Hrdai Compute n-1 

call rfact Call rfact (n-1) 

imulq hrbx, %rax Multiply result by n 
L395: done: 

popg hrbx Restore %rbx 

ret Return 





b ) 生成 的 汇编 代码 
3-35 递归 的 阶乘 程序 的 代码 。 标 准 过 程 处 理 机 制 足 够 用 来 实现 递归 函数 


ES 练习 题 3. 35 ”一 个 具有 通用 结构 的 C 函数 如 下 : 


long rfun(unsigned long x) 1 
3 ) 
return $ 
unsigned long nx = - 
long rv = rfun(nx); 
return ; 


} 
GCC 产生 如 下 汇编 代码 : 


long rfun(unsiened long XxX) 


x in Krdi 
1 rfun: 
2 pushq  %rbx 
3 movg hrdi, hrbx 
4 movl $0, %eax 
5 testq “rdi, %rdi 
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6 je -Je 

7 shrq $2, %rdi 

8 call rfun 

9 addq rbx, hrax 
10 2: 

11 popq hrbx 

12 ret 


A. rfun 存储 在 被 调用 者 保存 寄存 器 srbx 中 的 值 是 什么 ? 
B. 填写 上 述 C 代码 中 缺失 的 表达 式 。 


3.8 ”数组 分 配 和 访问 


C 语 言 中 的 数组 是 一 种 将 标量 数据 聚集 成 更 大 数据 类 型 的 方式 。C 语言 实现 数组 的 方式 
非常 简单 ， 因 此 很 容易 翻译 成 机 器 代码 。C 语言 的 一 个 不 同 寻 稼 的 特点 是 可 以 产生 指 癌 数组 
中 元 素 的 指针 ， 并 对 这 些 指针 进行 运算 。 在 机 顺 代 码 中 ， 这 些 指 针 会 被 翻译 成 地 址 计算 。 

优化 编译 需 非 常 善于 简化 数组 索引 所 使 用 的 地 址 计算 。 不 过 这 使 得 C 代码 和 它 到 机 器 
代码 的 翻译 之 间 的 对 应 关系 有 些 难以 理解 。 


3.8.1 基本 原则 


对 于 数据 类 型 和 整 型 常数 NN ， 声 明 如 下 : 
T ALN] ; 


起 始 位 置 表示 为 zx,。 这 个 声明 有 两 个 效果 。 首 先 ， 它 在 内 存 中 分 配 一 个 上 。NN 字 节 的 连续 
区 域 ， 这 里 工 是 数据 类 型 工 的 大 小 (单位 为 字 节 )。 其 次 ， 它 引入 了 标识 符 A， 可 以 用 A 来 
作为 指向 数组 开头 的 指针 ， 这 个 指针 的 值 就 是 zs。 可 以 用 0 一 N-l 的 整数 索引 来 访问 该 数 
组 元 素 。 数 组 元 素 i 会 被 存放 在 地 址 为 zx 十 "ii 的 地 方 。 

作为 示例 ， 让 我 们 来 看 看 下 面 这 样 的 声明 : 


char A[12]; 
char *B[8]; 
int SL6l]s 
double *D[5]; 


这 些 声明 会 产生 带 下 列 参 数 的 数组 : 
总 的 大 小 
A 
B 
C 
D 


] 12 TA 
8 64 工 B 
4 24 Xe 
8 40 XD 


数组 A 由 12 个 单字 节 (char) 元 素 组 成 。 数 组 Cc 由 6 个 整数 组 成 ， 每 个 需要 8 个 字 节 。 
B 和 DD 都 是 指针 数组 ， 因 此 每 个 数组 元 素 都 是 8 个 字 节 。 

x86-64 的 内 存 引 用 指令 可 以 用 来 简化 数组 访问 。 人 例如， 假设 下 是 一 个 int 型 的 数组 ， 
而 我 们 想 计算 E[i]， 在 此 ，E 的 地 址 存放 在 寄存 器 %$rdx 中 ， 而 i 存放 在 寄存 器 S$rcx 中 。 
然后 ， 指 令 


movl] (%rdx,%rcx,4),%eax 


会 执行 地 址 计算 zf 十 44， 读 这 个 内 存 位 置 的 值 ， 并 将 结果 存放 到 寄存 器 seax 中 。 人 允许 的 





伸缩 因子 1、2、4 和 8 覆盖 了 所 有 基本 简单 数据 类 型 的 大 小 。 
让 练习 题 3. 36 考虑 下 面 的 声明 ， 


Short SLAN 
short  *T[3j: 
short **U[6]; 
int V[8] ; 
double *W[4]; 


填写 下 表 ， 描 述 每 个 数组 的 元 素 大 小 、 整 个 数组 的 大 小 以 及 元 素 i 的 地 址 : 





3. 8. 2 指针 运算 


C 语言 允许 对 指针 进行 运算 ， 而 计算 出 来 的 值 会 根据 该 指针 引用 的 数据 类 型 的 大 小 进 
行 伸 缩 。 也 就 是 说 ， 如 果 p 是 一 个 指 问 类 型 为 的 数据 的 指针 ，p 的 值 为 x。， 那 么 表达 式 
p 十 i 的 值 为 x, 十 L，。，i， 这 里 工 是 数据 类 型 TT 的 大 小 。 

单 操 作 数 操作 符 “& ”和 “*““ 可 以 产生 指针 和 间接 引用 指针 。 也 就 是 ， 对 于 一 个 表示 某 
个 对 象 的 表达 式 Expr，&Expr 是 给 出 该 对 象 地 址 的 一 个 指针 。 对 于 一 个 表示 地 址 的 表达 
式 AExpr，*AExpr 给 出 该 地 址 处 的 值 。 因 此 ， 表 达 式 Expr 与 * &Expr 是 等 价 的 。 可 以 对 
数组 和 指针 应 用 数组 下 标 操作 。 数 组 引用 A[i] 等 同 于 表达 式 * (A+ i)。 它 计算 第 i 个 数 
组 元 素 的 地 址 ， 然 后 访问 这 个 内 存 位 置 。 

扩展 一 下 前 面 的 例子 ， 假 设 整 型 数组 下 的 起 始 地 址 和 整数 索引 ;分 别 存放 在 寄存 天 
srdx 和 %rcx 中 。 下 面 是 一 些 与 己 有 关 的 表达 式 。 我 们 还 给 出 了 每 个 表达 式 的 汇编 代码 实 
现 ， 结 果 存 放 在 寄存 能 $eax( 如 果 是 数据 ) 或 寄存 器 %$rax( 如 果 是 指针 ) 中 。 


CN EE TCR 





在 这 些 例子 中 ， 可 以 看 到 返回 数组 值 的 操作 类 型 为 int， 因 此 涉及 4 字 节 操作 (例如 
movl1) 和 寄存 器 (例如 %eax)。 那 些 返 回 指针 的 操作 类 型 为 int * ， 因 此 涉及 8 字 节 操作 
(例如 leaq) 和 寄存 器 (例如 %rax)。 最 后 一 个 例子 表明 可 以 计算 同一 个 数据 结构 中 的 两 个 
指针 之 差 ， 结 果 的 数据 类 型 为 ong， 值 等 于 两 个 地 址 之 差 除 以 该 数据 类 型 的 大 小 。 

证 弹 练习 题 3. 37 假设 短 整 型 数组 S 的 地 址 xs 和 整数 索引 i 分 别 存放 在 寄存 器 %rdx 和 

srCx 中 。 对 下 面 每 个 表达 式 ， 给 出 它 的 类 型 、 值 的 表达 式 和 汇编 代码 实现 。 如 果 结 果 
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是 指针 的 话 ， 要 保存 在 寄存 器 gs$rax 中 ， 恕 果 数 据 类 型 为 short， 就 保存 在 寄存 器 元 
素 SsaxX 中 。 


汇编 代码 





3. 8.3 肉 套 的 数组 


当 我 们 创建 数组 的 数组 时 ， 数 组 分 配 和 引用 的 一 般 原则 也 是 成 立 的 。 例 如 ， 声 明 
int 有 AL5j £3]; 
等 价 于 下 面 的 声明 
typedef int row3_t[3]; 
row3_t AL5] ; 
数据 类 型 row3 t 被 定义 为 一 个 3 个 整数 的 数组 。 数 组 A 包含 5 个 Te 每 个 元 素 
需要 12 个 字 节 来 存储 3 个 整数 。 整 个 数组 的 大 小 就 是 4X5X3 王 60 字 
数组 A 还 可 以 被 看 成 一 个 5 行 3 列 的 二 维 数组 ， 用 A[0] 
[0] 到 A[4] [2] 来 引用 。 数 组 元 素 在 内 存 中 按照 “ 行 优先 ”的 





A[O0] [0 
顺序 排列 ， 意 味 着 第 0 行 的 所 有 元 素 ， 可 以 写作 A[0]， 后 面 四 
跟着 第 1 行 的 所 有 元 素 (A[1])， 以 此 类 推 ， 如 图 3-36 所 示 。 ALO] I2] 

这 种 排列 顺序 是 嵌 套 声明 的 结果 。 将 A 看 作 一 个 有 5 个 ee 
元 素 的 数组 ， 每 个 元 素 都 是 3 个 int 的 数组 ， 首 先是 A[0]， RLLT C21 
然后 是 A[1]， 以 此 类 推 。 A[2] [0] 

要 访问 多 维 数组 的 元 素 ， 编 译 器 会 以 数组 起 始 为 基地 址 ， | 
(可 能 需要 经 过 伸缩 的 ) 偏 移 量 为 索引 ， te A[3] [0] 
的 偏 移 量 ， 然 后 使 用 某 种 MOV 指令 。 通 常 来 说 ， 对 于 一 A[3] [1] 
声明 如 下 的 数组 : AL3] [2] 

A[4] [0] 

T DIR] [C] ; A[4] [1] 

它 的 数组 元 素 DI[i] [j] 的 内 存 地 址 为 BL] [2 
&D[Lil[j] = xo LC(C. it}) C3. 1 图 3-36 ”按照 行 优先 顺序 
这 里 , 二 是 数据 类 型 T 以 字 节 为 单位 的 大 小 。 作 为 一 个 示例 ， 存储 的 数组 元 素 


考虑 前 面 定 义 的 5X3 的 整 型 数组 A。 假 设 zx,。、i 和 7 分 别 在 寄存 器 %$rdi、%rsi 和 srdx 中 。 
然后 ， 可 以 用 下 面 的 代码 将 数组 元 素 A[i] [j] 复 制 到 寄存 右 %eax 中 : 


A in Yrdi, i in Yrsi, and 7 in Krdx 


1 leaqg (Xrsi, rsi,2), Wrax Compute 3i 
2 leaqg (Wrdi, Xraxs4), wrax Compute xa+t 12i 
3 movl (Wrax,%rdx,4), heax Read from Mlxi + 12i + 4j] 


正如 可 以 看 到 的 那样 ， 这 段 代 码 计算 元 素 的 地 址 为 x 十 12i 十 47 二 x, 十 4(3i1 十 7)， 使 用 了 
x86-64 地 址 运算 的 伸缩 和 加 法 特性 。 
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匡 s 练习 题 3.38 考虑 下 面 的 源 代 码 ， 其 中 M 和 是 用 # define 声明 的 常数 : 


long PLM] [N] ; 
long QILN] [M] ; 


long sum_element(long i, long j) { 
return PL[i][j] + Q[j] [i]; 
} 


在 编译 这 个 程序 中 ，GCC 产生 如 下 汇编 代码 ; 
long sum_element(long i, long 7) 
i in rdi, j in Wrsi 
sum_element.: 
leaq 0(,%rdi,8), %rdx 
subq %rdi, %rdx 
addq %rsi, Mrdx 
leaqg (Vrsi, Lrsi,4), Wrax 
addq hrax, hrdi 
movg Q(,%rdi,8), hrax 
addq PpP( Wrdx,8), rax 
ret 


运用 逆向 工程 扩 能 ， 根 据 这 段 汇 编 代码 ， 确 定 M 和 NN 的 值 。 


MD open 人 WW NN 一 


3.8.4 定 长 数组 


C 车 言 编 详 顺 能 够 优化 定 长 多 维 数组 上 的 操作 代码 。 这 里 我 们 展示 优化 等 级 设置 为 - 
ol 时 GCC 采用 的 一 些 优化 。 假 设 我 们 用 如 下 方式 将 数据 类 型 fix_ matrix 声明 为 16X16 
的 整 型 数组 : 
#define N 16 
typedef int fix_matrix[LN] [LN] ; 


(这 个 例子 说 明了 一 个 很 好 的 编码 习惯 。 当 程序 要 用 一 个 常数 作为 数组 的 维度 或 者 缓冲 区 
的 大 小 时 ， 最 好 通过 # define 声明 将 这 个 常数 与 一 个 名 字 联 系 起 来 ， 然 后 在 后 面 一 直 使 
用 这 个 名 字 代 替 常 数 的 数值 。 这 样 一 来 ， 如 果 需 要 修改 这 个 值 ， 只 用 简单 地 修改 这 个 # 
define 声明 就 可 以 了 。.) 图 3-37a 中 的 代码 计算 和 矩阵 A 和 BB 乘积 的 元 素 i, &k， 即 A 的 行 i 和 
B 的 列 上 的 内 积 。GCC 产生 的 代码 (我 们 再 反 汇 编 成 C)， 如 图 3-37b 中 函数 fix_prod_ 
ele opt 所 示 。 这 段 代码 包含 很 多 聪明 的 优化 。 它 去 掉 了 整数 索引 7， 并 把 所 有 的 数组 引 
用 都 转换 成 了 指针 间接 引用 ， 其 中 包括 (1) 生 成 一 个 指针 ， 命 名 为 Aptr， 指 向 A 的 行 i 中 
连续 的 元 素 ; 〈2) 生 成 一 个 指针 ， 命 名 为 Bptr， 指 向 B 的 列 中 连续 的 元 素 ; (3) 生 成 一 
个 指针 ， 命 名 为 Bend， 当 需要 终止 该 循环 时 ， 它 会 等 于 Bptr 的 值 。Aptr 的 初始 值 是 A 
的 行 i 的 第 一 个 元 素 的 地 址 ， 由 C 表达 式 &A[i] [0] 给 出 。Bptr 的 初始 值 是 B 的 列 上 的 第 

一 个 元 素 的 地 址 ， 由 rap &B[0] [k] 给 出 。Bend 的 值 是 假想 中 B 的 列 7 的 第 (n 十 1) 个 
元 素 的 地 址 ， 由 C 表达 式 &BI[N] [k] 给 出 。 

下 面 给 出 的 是 GCC so fix prod ele 生成 的 这 个 循环 的 实际 汇编 代码 。 我 们 看 
到 4 个 寄存 器 的 使 用 如 下 :seax 保存 result,srdi 保存 Aptr,srcx 保存 Bptr, 而 srsi 保 
存 Bend。 
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/* Compute i,k of fixed matrix product */ 

int fix_prod_ele (fix matrix A, fix_matrix B, long i, long k) 1{ 
long j; 
int result 


for (j = 0; j < N; j++) 
result += A[i] [j] * B[j] [k]; 


return result; 





a ) 原始 的 C 代 码 


/* Compute i,k of fixed matrix product */ 

int fix_prod_ele_opt (fix_matrix A, fix._matrix B, long i, long k) {+ 
int *Aptr = &A[i][0]; /* Points to elements in row i of A */ 
int *Bptr = &B[O] [kj]; /* Points to elements in column k of B */ 
int *Bend = &B[N] [k] ; /* Marks stopping point for Bptr */ 
int result = 0; 


do +{ /* No need for initial test */ 
result += *Aptr * *Bptr; /* Add next product to sum */ 
Aptr +: /* Move Aptr to next column */ 
Bptr += N; /* Move Bptr to next row */ 
} while (Bptr != Bend); /* Test for stopping point */ 
return result:; 





b ) 优化 过 的 C 代 码 


图 3-37 原始 的 和 优化 过 的 代码 ， 该 代码 计算 定 长 数组 的 矩阵 乘积 的 元 素 i,， 上。 
编译 需 会 目 动 完 成 这 些 优 化 

int fix_prod_ele_opt (fix_matrix A, fix_matrix B, long i, long k) 

A in %rdi, B in Yrsi, i in Xrdx, k in Wrcx 
1 fix_prod_ele: 
2 salg $6, hrdx Compute 64 * i 
3 addq hrdx, hrdi Compute Aptr = xa4+ 064i = &A[i][0] 
4 leaqg (hrsi,hrcx,4), hrcx Compute Bptr = xp+ dk = &B[O] [k] 
5 leaqg 1024(%rcx), hrsi Compute Bend = Xe 十 4K 十 1024 = &B[N] [k] 
6 movl $0, heax Set result = 0 
7 由 loop: 
8 movl (Wrdi), %edx Read *Aptr 
9 imull (%rcx), %edx Multiply by *Bptr 
10 addl %edx, “eax Add to result 
11 addq $4, %rdi Increment Aptr ++ 
12 addq $64, hrcx Increment Bptr += N 
13 cmpq ra HrCX Compare Bptr:Bend 
14 jne SA If !=, goto loop 
15 rep; ret Return 


蕊 六 练习 题 3. 39 利用 等 式 3.1 来 解释 图 3-37b 的 C 代码 中 Aptr、Bptr 和 Bend 的 初始 值 计 
算 (第 3~5 行 ) 是 如 何 正确 反映 fix prod ele 的 汇编 代码 中 它们 的 计算 (第 3~5 行 ) 的 。 


第 3 章 程序 的 机 器 级 表示 181 


下 六 练习 题 3. 40 下 面 的 C 代 码 将 定 长 数组 的 对 角 线 上 的 元 素 设 置 为 val: 


/* Set all diagonal elements to val */ 
void fix_set_diag(fix_matrix A, int val) { 
long 1i; 
for (i = 0; i < N; i++) 
A[i] [i] = val; 


} 
当 以 优化 等 级 -O01 编译 时 ，GCC 产生 如 下 汇编 代码 : 
L fix_set_diag: 
void fix_set_diapg(fix_matrix A, int val) 
A 三 五 VEC val in Yrss 
2 moV1 $0, heax 
3 3: 
4 movl Wesi, (%rdi ,rax) 
5 addg $68, %rax 
' cmpq $1088 ， %rax 
7 jne :Li13 
8 rep; ret 


创建 一 个 C 代 码 程序 fix set diag opt， 它 使 用 类 似 于 这 段 汇编 代 码 中 所 使 用 
的 优化 ， 风 格 与 图 3-37b 中 的 代码 一 致 。 使 用 含有 参数 N 的 表达 式 ， 而 不 是 整数 种 
量 ， 使 得 如 果 重 新 定义 了 NM， 你 的 代码 仍 能 够 正确 地 工作 。 


3.8.5 变 长 数组 

历史 上 ，C 语言 只 支持 大 小 在 编译 时 就 能 确定 的 多 维 数组 (对 第 一 维 可 能 有 些 例 外 )。 
程序 员 需 要 变 长 数组 时 不 得 不 用 malloc 或 calloc 这 样 的 图 数 为 这 些 数 组 分 配 存 储 空 间 ， 而 
且 不 得 不 显 式 地 编码 ， 用 行 优先 索引 将 多 维 数组 上 映射 到 一 维 数 组 ， 如 公式 (3. 1) 所 示 。ISO 
C99 引入 了 一 种 功能 ， 人 允许 数组 的 维度 是 表达 式 ， 在 数组 被 分 配 的 时 候 才 计 算出 来 。 

在 变 长 数组 的 C 版 本 中 ， 我 们 可 以 将 一 个 数组 声明 如 下 : 

int A[Lexprl] [expr2] 


它 可 以 作为 一 个 局 部 变量 ， 也 可 以 作为 一 个 函数 的 参数 ， 然 后 在 遇 到 这 个 声明 的 时 候 ， 通 
过 对 表达 式 exprl 和 expr2 求 值 来 确定 数组 的 维度 。 因 此 ， 例 如 要 访问 nXn 数组 的 元 友 
i1，j， 我 们 可 以 写 一 个 如 下 的 函数 : 

int var_ele(long n, int A[nj [n], long i, long j) { 


return A[i][j]; 
} 


参数 n 必须 在 参数 A[n] [n] 之 前 ， 这 样 函 数 就 可 以 在 遇 到 这 个 数组 的 时 候 计 算出 数组 的 维度 。 
GCC 为 这 个 引用 函数 产生 的 代码 如 下 所 示 : 


int var_ele(long n, int Alnjln}, long i, long ij) 


n In Arliss A In SLBis 1 1n roax, 7 1n AZCX 
1 var_ele: 
2 imulg %rdx, vod Compute nn «| 
3 leaqg (Wrsi,%rdi,4), hrax Compute xi+4(n: 7) 
4 movl (Wrax,%rcx,4), heax Read from Mlxs 二 4(n: 门 填 斗门 
5 ret 
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正如 注释 所 示 ， 这 段 代 码 计 算 元 素 i，j 的 地 址 为 x 十 4(n 让 十 4 二 Xxs 十 4(n* i 十 j)。 这 
个 地 址 的 计算 类 似 于 定 长 数组 的 地 址 计算 (参见 3. 8. 3 节 )， 不 同 点 在 于 1) 由 于 增加 了 参数 
n， 寄 存 器 的 使 用 变化 了 ; 2) 用 了 乘法 指令 来 计算 ni 第 2 行 )， 而 不 是 用 leaq 指令 来 计 
算 3i。 因 此 引用 变 长 数组 只 需要 对 定 长 数组 做 一 点 儿 概 括 。 动 态 的 版 本 必须 用 乘法 指令 对 
i 伸缩 n 倍 ， 而 不 能 用 一 系列 的 移 位 和 加 法 。 在 一 些 处 理 器 中 ,乘法 会 招致 严重 的 性 能 处 
罚 ， 但 是 在 这 种 情况 中 无 可 避免 。 

在 一 个 循环 中 引用 变 长 数组 时 ， 编 译 器 常常 可 以 利用 访问 模式 的 规律 性 来 优化 索引 的 
计算 。 例 如 ， 图 3-38a 给 出 的 C 代码 ， 它 计算 两 个 nXn 和 矩阵 A 和 B 乘积 的 元 素 i,， A。 
GCC 产生 的 汇编 代码 ， 我 们 再 重新 变 为 C 代码 (图 3-38b)。 这 个 代码 与 固定 大 小 数组 的 优 
化 代码 (图 3-37) 风 格 不 同 ， 不 过 这 更 多 的 是 编译 器 选择 的 结果 ， 而 不 是 两 个 孔 数 有 什么 根 
本 的 不 同 造成 的 。 图 3-38b 的 代码 保留 了 循环 变量 j， 用 以 判定 循环 是 否 结束 和 作为 到 R 
的 行 i 的 元 素 组 成 的 数组 的 索引 。 


/* Compute i,k of variable matrix product */ 


1 

2 int var_prod_ele(long n, int A[nj[n], int Bl[n][n], long i, long k) 二 
3 long J]; 

4 int result = 0; 

5 

6 for (人 = Os; j < nm jt*) 

7 result += A[i] [j] * B[j] [k] ; 

8 

9 return result; 

10 了 


a ) 原始 的 C 代 码 


/* Compute i,k of variable matrix product */ 
int var_prod_ele_opt(long n, int A[nj][n], int Bl[n] [n], long i, long k) { 
int *Arow = A[i]; 
int *Bptr = &B[O] [k]; 
int result = 0; 
long ] ; 


下 
result += Arow[j] * *Bptr; 
Bptr += 1; 


} 


return result; 





b ) 优化 后 的 C 代 码 
图 3-38 计算 变 长 数组 的 矩阵 乘积 的 元 素 ji，A 的 原始 代码 和 优化 后 的 代码 。 编 译 器 自动 执行 这 些 优化 
下 面 是 var prod ele 的 循环 的 汇编 代码 : 


Registers: n in hrdi, Arow in %rsi, Bptr in %rcex 
dn in Hr9, result in heax, j in %edx 
1 .L24: loop: 
y movl (Wrsi, nrdx,4), Xr8d Read Arow[ij} 
3 imull (HEET, hr8d Nultiply by *Bptr 
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4 addl VE8d ， Wheax Add to result 

5 addq $1, Xrdx J 

6 addq hr9: Wrex Bptr += 1 

7 cmpq srdi, hrdx Compare j:n 

8 jne .L24 If !=, goto loop 


我 们 看 到 程序 既 使 用 了 伸缩 过 的 值 4n( 寄 存 右 %r9) 来 增加 Bptr， 也 使 用 了 的 值 ( 寄 
存 器 $rdi) 来 检查 循环 的 边界 。C 代码 中 并 没有 体现 出 需要 这 两 个 值 ， 但 是 由 于 指针 运算 
的 伸缩 ， 才 使 用 了 这 两 个 值 。 

可 以 看 到 ， 如 果 允 许 使 用 优化 ，GCC 能 够 识别 出 程序 访问 多 维 数组 的 元 素 的 步 长 。 
然后 生成 的 代码 会 避免 直接 应 用 等 式 (3. 1) 会 导致 的 乘法 。 不 论 生 成 基于 指针 的 代码 (图 3- 
37b) 还 是 基于 数组 的 代码 (图 3-38b)， 这 些 优化 都 能 显著 提高 程序 的 性 能 。 


3.9 异 质 的 数据 结构 


C 语言 提供 了 两 种 将 不 同类 型 的 对 象 组 合 到 一 起 创建 数据 类 型 的 机 制 : 结构 (struc- 
ture)， 用 关键 字 struct 来 声明 ， 将 多 个 对 象 集合 到 一 个 单位 中 ; 联合 (union)， 用 关键 
字 union 来 声明 ， 人 允许 用 几 种 不 同 的 类 型 来 引用 一 个 对 象 。 


3.9.1 结构 


C 语言 的 struct 声明 创建 一 个 数据 类 型 ， 将 可 能 不 同类 型 的 对 象 聚 合 到 一 个 对 象 中 。 
用 名 字 来 引用 结构 的 各 个 组 成 部 分 。 类 似 于 数组 的 实现 ， 绪 构 的 所 有 组 成 部 分 都 存放 在 内 
存 中 一 段 连 续 的 区 域内 ， 而 指向 结构 的 指针 就 是 结构 第 一 个 字 节 的 地 址 。 编 译 髓 维护 关于 
每 个 结构 类 型 的 信息 ， 指 示 每 个 字段 (field) 的 字 节 偏 移 。 它 以 这 些 偏 移 作为 内 存 引 用 指令 
中 的 位 移 ， 从 而 产生 对 结构 元 紊 的 引用 。 


给 C 语言 初学 者 | 1 省 二 站 二 2 上 二 将 一 个 对 象 表示 为 struct 


C 语言 提供 的 struct 数据 类 型 的 构造 函数 (constructor) 与 C++ 和 Java 的 对 象 最 为 接近 。 
它 允 许 程序 员 在 一 个 数据 结构 中 保存 关于 某 个 实体 的 信息 ， 并 用 名 字 来 引用 这 些 信息 。 
例如 ， 一 个 图 形 程序 可 能 要 用 结构 来 表示 一 个 长 方形 : 


struct rect +{ 
long 1lx; /* X coordinate of lower-left corner */ 
long 1ly; /* Y coordinate of lower-left corner */ 
unsigned long width; /* Width (in pixels) */ 
unsigned long height; /* Height (in pixels) */ 
unsigned color; /* Coding of color */ 

上 

可 以 声明 一 个 struct rect 类 型 的 变量 rx， 并 将 它 的 字段 值 设置 如 下 : 

struct rect 工 ; 

rllx = TF.41ly =.0; 

r.color = OxFFOOFF:; 

r.width = 10; 

r.height = 20; 


这 里 表达 式 r.11x 就 会 选择 结构 工 的 11x 字段 。 
另外 ， 我 们 可 以 在 一 条 语句 中 既 声 明 变 量 又 初始 化 它 的 字段 : 
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struct rect r = { 0, 0, 10, 20, OxFFOOFF }; 

将 指向 结构 的 指针 从 一 个 地 方 传递 到 另 一 个 地 方 ， 而 不 是 复制 它们 ， 这 是 很 常见 
的 。 例 如 ， 下 面 的 函数 计算 长 方形 的 面积 ， 这 里 ， 传 递 给 函数 的 就 是 一 个 指向 长 方形 
struct 的 指针 : 


long area(struct rect *rp) 1 
return (*rp).width * (*rp) .height; 


表达 式 (*rp) .width 间接 引用 了 这 个 指针 ， 并 且 选 取 所 得 结构 的 width 字段 。 这 
里 必须 要 用 括号 ， 因 为 编译 器 会 将 表达 式 *rp.width 解释 为 * (rp.width)， 而 这 是 非 
法 的 。 间 接 引 用 和 字段 选取 结合 起 来 使 用 非常 常见 ， 以 至 于 C 语言 提供 了 一 种 替代 的 表 
示 法 -> 。 即 rp-> width 等 价 于 表达 式 (*rp) .width。 人 例如， 我 们 可 以 写 一 个 函数 ， 它 
将 一 个 长 方形 顺 时 针 旋 转 90 度 : 
void rotate_left(struct rect *rp) { 
/* Exchange width and height */ 
long t = rp->height; 
rp->height = rp->width,; 
rp->width = t; 
/* Shift to new lower-left corner */ 
rp->llx == 七 ， 
下 
C++ 和 Java 的 对 象 比 C 语 言 中 的 结构 要 复杂 精细 得 多 ， 因 为 它们 将 一 组 可 以 被 调 
用 来 执行 计算 的 方法 与 一 个 对 象 联系 起 来 。 在 C 语言 中 ， 我 们 可 以 简单 地 把 这 些 方法 写 
成 首 通 函数 ， 就 像 上 面 所 示 的 函数 area 和 rotate left。 


让 我 们 来 看 看 这 样 一 个 例子 ， 考 虑 下 面 这 样 的 结构 声明 : 
struct rec 1 
nt 4 
int j; 
4nt Ls 
int *p; 
i 
这 个 结构 包括 4 个 字段 : 两 个 4 字 节 int、 一 个 由 两 个 类 型 为 int 的 元 素 组 成 的 数组 和 一 
个 8 字 节 整 型 指针 ， 总 共 是 24 个 字 节 : 
偏 移 0 4 8 16 24 
内 容 | i | i | ao | a | pb 
可 以 观察 到 ， 数 组 a 是 苦 和 人 到 这 个 结构 中 的 。 上 图 中 顶部 的 数字 给 出 的 是 各 个 字段 相 
对 于 结构 开始 处 的 字 节 偏 移 。 
为 了 访问 结构 的 字段 ， 编 译 右 产生 的 代码 要 将 结构 的 地 址 加 上 适当 的 偏 移 。 例 如 ， 假 
设 struct rec* 类 型 的 变量 r 放 在 寄存 器 %$rdi 中 。 那 么 下 面 的 代码 将 元 素 r->i 复制 到 
元 站 二 3 
Registers: r in %rdi 
1 movl (%rdi), %eax Get 工 一 > 
2 movl %eax, 4(%rdi) Store in r->j 
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因为 字段 i 的 偏 移 量 为 0， 所 以 这 个 字段 的 地 址 就 是 r 的 值 。 为 了 存储 到 字段 j， 代 码 要 
将 r+ 的 地 址 加 上 偏 移 量 4。 

要 产生 一 个 指向 结构 内 部 对 象 的 指针 ， 我 们 只 需 将 结构 的 地 址 加 上 该 字段 的 侦 移 量 。 
例如 ， 只 用 加 上 偏 移 量 8 十 4X1 王 12， 就 可 以 得 到 指针 &(F->a[1I])。 对 于 在 寄存 器 %rdi 
中 的 指针 r 和 在 寄存 器 $rsi 中 的 长 整数 变量 i, 我 们 可 以 用 一 条 指令 产生 指针 & (r->a 
[i]) 的 值 : 

Registers: r in hrdi, i Nrsi 
1 leaqg 8(%rdi,%rsi,4), %rax Set Yrax to &r->a[i] 
最 后 举 一 个 例子 ， 下 面 的 代码 实现 的 是 语句 : 


一 > se eSalr->3 + gE-3]): 


开始 时 r 在 寄存 兹 %rdi 中 : 


Registers: r ID hrdi 


1 movl 4(%rdi), Weax Get r->j 

2 addl (%rdi), heax Add r->i 

3 cltq Extend to 8 bytes 

4 leaqg 8(%rdi,%rax,4), %rax Compute &r->a[r->i + r->]] 
5 movg wrax, 16(%rdi) Store in r-2p 


综 上 所 述 ， 结 构 的 各 个 字段 的 选取 完全 是 在 编译 时 处 理 的 。 机 需 代 码 不 包含 关于 字段 
声明 或 字段 名 字 的 信息 。 
RM 练习 题 3. 41 考虑 下 面 的 结构 声明 : 
struct prob { 
int *Dp; 
struct + 
nD 正和 
int y; 
} 8; 
struct prob *next,; 


}; 


这 个 声明 说 明 一 个 结构 可 以 嵌 套 在 另 一 个 结构 中 ， 就 像 数 组 可 以 幅 套 在 结构 中 、 数 组 
可 以 嵌 套 在 数组 中 一 样 。 

下 面 的 过 程 (省 略 了 某 些 表达 式 ) 对 这 个 结构 进行 操作 : 
void sp_init(struct prob *sp) { 

Sp->S.x 


SP->P 
sp->next 


A. 下 列 字段 的 偏 移 量 是 多 少 ( 以 字 节 为 单位 )? 
卫 . 
D's 
S .y: 
next: 
B. 这 个 结构 总 共 需 要 多 少 字 节 ? 
C. 编译 器 为 sp init 的 主体 产生 的 汇编 代码 如 下 ; 
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void sp_init(struct prob *sp) 


sp in Yrdi 


1 sp -init: 

2 movl 12(%rdi), heax 
3 movl Weax, 8(%rdi) 
4 leaqg 8(%rdi), %rax 
5 movVdq Yrax, (%rdi) 

6 movg tradis 16(%rdi) 
7 ret 


根据 这 些 信息 ， 填 写 sp init 代码 中 缺失 的 表达 式 。 
盛 式 练习 题 3. 42 下 面 的 代码 给 出 了 类 型 ELE 的 结构 声明 以 及 函数 fun 的 原型 : 


struct ELE { 
long VY 
struct ELE *p; 
让 


long fun(struct ELE *ptr); 
当 编 译 fun 的 代码 时 ，GCC 会 产生 如 下 汇编 代码 : 


long fun(struct ELE *ptr) 
ptr in %rdi 


] fun: 

2 movl $0, heax 

3 jmp “LL2 

4 ek 

5 addq [Cd Wrax 

6 movg 8(4rdi), hrdi 

7 si2: 

8 testq  ‘%rdi, %rdi 

9 jne .L3 

10 rep; ret 

A. 利用 逆向 工程 技巧 写 出 fun 的 CC 代码。 

B. 描述 这 个 结构 实现 的 数据 结构 以 及 fun 执行 的 操作 。 
3.9.2 联合 


联合 提供 了 一 种 方式 ， 能 够 规避 C 语言 的 类 型 系统 ， 人 允许 以 多 种 类 型 来 引用 一 个 对 
象 。 联 合 声明 的 语法 与 结构 的 语法 一 样 ， 只 不 过 语义 相差 比较 大 。 它 们 是 用 不 同 的 字段 来 
引用 相同 的 内 存 块 。 

考虑 下 面 的 声明 : 


SU 二 SS 邢 
Char C; 
五 七 也 [人 ] ; 
double TV; 

$y 

union U3 { 
char c; 
int 1i[2]); 
double TV; 


站 
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在 一 台 x86-64 Linux 机 右上 编译 时 ， 字 有 段 的 偏 移 量 、 数 据 类 型 s3 和 U3 的 完整 大 小 如 下 : 
i 


| 5 
S3 0 16 24 
| alas 
( 稍 后 会 解释 33 中 i 的 偏 移 量 为 什么 是 4 而 不 是 1， 以 及 为 什么 v 的 偏 移 量 是 16 而 不 是 9 
或 12。) 对 于 类 型 union U3 * 的 指针 p，B-> c、pB-> i[0] 和 Bp->v 引用 的 都 是 数据 结构 
的 起 始 位 置 。 还 可 以 观察 到 ， 一 个 联合 的 总 的 大 小 等 于 它 最 大 字段 的 大 小 。 
在 一 些 下 上 文中 ， 联 合十 分 有 用 。 但 是 ， 它 也 能 引起 一 些 讨厌 的 错误 ， 因 为 它们 绕 过 
语言 类 型 系统 提供 的 安全 措施 。 一 种 应 用 情况 是 ， 我 们 事先 知道 对 一 个 数据 结构 中 的 
两 个 不 同 字段 的 使 用 是 互 斥 的 ， 那 么 将 这 两 个 字段 声明 为 联合 的 一 部 分 ， 而 不 是 结构 的 一 
部 分 ， 会 减 小 分 配 空间 的 总 量 。 
例如 ， 假 设 我 们 想 实 现 一 个 二 叉 树 的 数据 结构 ， 每 个 叶子 节点 都 有 两 个 double 类 型 的 
数据 值 ， 而 每 个 内 部 节点 都 有 指向 两 个 孩子 节点 的 指针 ， 但 是 没有 数据 。 如 果 声 明 如 下 : 
struct node_s 攻 
struct node_s *left; 
struct node_s *right; 
double data[L2] ; 
hs 
那么 每 个 节点 需要 32 个 字 节 ， 每 种 类 型 的 节点 都 要 浪费 一 半 的 字 节 。 相 反 ， 如 果 我 们 如 
下 声明 一 个 节点 : 
union node_u +{ 
struct { 
Union node_u *left; 
union node_u *right, 
} internal; 
double datal[l2]; 
}3 
那么 ， 每 个 节点 就 只 需要 16 个 字 节 。 如 果 是 一 个 指针 ， 指 向 union node ur* 类 型 的 市 
点 ， 我 们 用 n-> data[0] 和 n-> data[1] 来 引用 叶子 节点 的 数据 ， 而 用 n-> internal. 
left 和 n-> internal.right 来 引用 内 部 节点 的 孩子 。 
不 过 ， 如 果 这 样 编码 ， 就 没有 办 法 来 确定 一 个 给 定 的 节点 到 底 是 叶子 节点 ， 还 是 内 部 
2 通常 的 方法 是 引入 一 个 枚 举 类 型 ， 定 义 这 个 联合 中 可 能 的 不 同 选择 ， 然 后 再 创建 一 
结构 ， 包 含 一 个 标签 字段 和 这 个 联合 : 
typedef enum { N_LEAF, N_INTERNAL } nodetype_t; 


struct node_t +{ 
nodetype_t type; 
union 攻 
struct +{ 
struct node 七 *left; 
struct node_t *right; 
} internal:; 
double data[2] ; 
} inf0; 
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这 个 结构 总 共 需 要 24 个 字 节 : type 是 4 个 字 节 ，info.internal.left 和 info.internal. 
right 各 要 8 个 字 节 ,或 者 是 info.data 要 16 个 字 节 。 我 们 后 面 很 快 会 谈 到 ， 在 字段 
type 和 联合 的 元 素 之 间 需 要 4 个 字 节 的 填充 ， 所 以 整个 结构 大 小 为 4 十 4 十 16 二 24。 在 这 
种 情况 中 ， 相 对 于 给 代码 造成 的 及 烦 ， 使 用 联合 带 来 的 节省 是 很 小 的 。 对 于 有 较 多 字段 的 
数据 结构 ， 这 样 的 节省 会 更 加 吸引 人 。 

联合 还 可 以 用 来 访问 不 同 数据 类 型 的 位 模式 。 人 例如， 假设 我 们 使 用 简单 的 强制 类 型 转 
换 将 一 个 double 类 型 的 值 d 转换 为 unsigned long 类 型 的 值 u: 


unsigned long u = (unsigned long) di 


值 u 会 是 a 的 整数 表示 。 除 了 a 的 值 为 0.0 的 情况 以 外 ，u 的 位 表示 会 与 a 的 很 不 一 样 。 
再 看 下 面 这 段 代 码 ， 从 一 个 double 产生 一 个 unsigned long 类 型 的 值 : 
unsigned long double2bits(double d) { 
union { 
double d; 
unsigned long u; 
} temp; 
temp.d = d; 
return temp.u; 

}; 

在 这 段 代 码 中 ， 我们 以 一 种 数据 类 型 来 存储 联合 中 的 参数 ， 又 以 男 一 种 数据 类 型 来 访 
问 它 。 结 果 会 是 uu 具有 和 da 一 样 的 位 表示 ， 包 括 符 号 位 字段 、 指 数 和 尾数 ， 如 3. 11 市 中 
描述 的 那样 。u 的 数值 与 a 的 数值 没有 任何 关系 ， 除 了 ad 等 于 0.0 的 情况 。 

当 用 联合 来 将 各 种 不 同 大 小 的 数据 类 型 结合 到 一 起 时 ， 字 节 顺 序 问题 就 变 得 很 重要 
了 。 例 如 ， 假 设 我 们 写 了 一 个 过 程 ， 它 以 两 个 4 字 节 的 unsigned 的 位 模式 ， 创 建 一 个 8 
字 节 的 double: 

double uu2double(unsigned word0, unsigned word1) 

{ 

union { 
double di; 
unsigned ul[2]; 
} temp; 


temp.u[0] = word0; 
temp.u[i] = wordi; 
return 七 emp .d; 
在 x86-64 这 样 的 小 端 法 机 器 上 ， 参 数 word0 是 a 的 低位 4 个 字 节 ， 而 wordl 是 高 位 
4 个 字 节 。 在 大 端 法 机 器 上 ， 这 两 个 参数 的 角色 刚好 相反 。 
ES 练习 题 3. 43 ”假设 给 你 个 任务 ， 检 查 一 下 C 编译 器 为 结构 和 联合 的 访问 产生 正确 的 
代码 。 你 写 了 下 面 的 结构 声明 ，; 


typedef union { 


struct { 
long uu; 
short v; 


char W; 
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} t4; 
struct 1{ 
int al[2]; 
char *p; 
} t2; 
上 u_type; 


你 写 了 一 组 具有 下 面 这 种 形式 的 函数 : 
void get(u_type *up, itype *dest) 攻 
*dest = expr:; 

上 
这 组 函数 有 不 一 样 的 访问 表达 式 expr， 而 且 根 据 expr 的 类 型 来 设置 目的 数据 类 型 type。 
然后 再 检查 编译 这 些 函 数 时 产生 的 代码 ， 看 看 它们 是 否 与 你 预期 的 一 样 。 

假设 在 这 些 函 数 中 ，up 和 dest 分 别 被 加 载 到 寄存 器 %$rdi 和 gsrsi 中 。 填 写 下 表 中 的 
数据 类 型 zype， 并 用 1 一 3 条 指令 序列 来 计算 表达 式 ， 并 将 结果 存储 到 dest 中 。 


代码 


movg (%rdi), Srax 
mOVG Srax, (S$rsi) 


up->t2 .a [up~->t1 .ul] 
wi 


3.9.3 数据 对 齐 


许多 计算 机 系统 对 基本 数据 类 型 的 合法 地 址 做 出 了 一 些 限制 ， 要 求 某 种 类 型 对 象 的 地 
址 必须 是 某 个 值 天 (通常 是 2、4 或 8) 的 倍数 。 这 种 对 齐 限制 简化 了 形成 处 理 器 和 内 存 系 统 
之 间接 口 的 硬件 设计 。 例 如 ， 假 设 一 个 处 理 器 总 是 从 内 存 中 取 8 个 字 节 ， 则 地 址 必须 为 8 
的 倍数 。 如 果 我 们 能 保证 将 所 有 的 double 类 型 数据 的 地 址 对 齐 成 8 的 倍数 ， 那 么 就 可 以 
用 一 个 内 存 操作 来 读 或 者 写 值 了 。 和 否则， 我 们 可 能 需要 执行 两 次 内 存 访问 ， 因 为 对 象 可 能 
被 分 放 在 两 个 8 字 节 内 存 块 中 。 

无 论 数据 是 否 对 齐 ，x86-64 硬件 都 能 正确 工作 。 不 过 ，Intel 还 是 建议 要 对 齐 数据 以 
提高 内 存 系统 的 性 能 。 对 齐 原 则 是 任何 天 字 节 的 基本 对 象 的 地 址 必须 是 天 的 倍数 。 可 以 
看 到 这 条 原则 会 得 到 如 下 对 齐 : 
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确保 每 种 数据 类 型 都 是 按照 指定 方式 来 组 织 和 分 配 ， 即 每 种 类 型 的 对 象 都 满足 它 的 对 
齐 限制 ， 就 可 保证 实施 对 齐 。 编 译 占 在 汇编 代码 中 放 入 命令 ,指明 全 局 数据 所 需 的 对 齐 。 
例如 ，3. 6. 8 证 开始 的 跳 转 表 的 汇编 代码 声明 在 第 2 行 包 含 下 面 这 样 的 命令 : 

.align 8 


这 就 保证 了 它 后 面 的 数据 (在 此 ， 是 跳 转 表 的 开始 ) 的 起 始 地 址 是 8 的 倍数 。 因 为 每 个 
表 项 长 8 个 字 节 ， 后 面 的 元 素 都 会 遵守 8 字 节 对 齐 的 限制 。 

对 于 包含 结构 的 代码 ， 编 译 需 可 能 需要 在 字段 的 分 配 中 插入 间隙， 以 保证 每 个 结构 元 
素 都 满足 它 的 对 齐 要 求 。 而 结构 本 身 对 它 的 起 始 地 址 也 有 一 些 对 齐 要 求 。 

比如 说 ， 考 虑 下 面 的 结构 声明 : 


struct Si +{ 
Rb 二 ; 
char c; 
int 1? 
2 
假设 编译 器 用 最 小 的 9 字 节 分 配 ， 画 出 图 来 是 这 样 的 : 
偏 移 0 4 5 9 
内 容 [ i: |c| ;3 | 


它 是 不 可 能 满足 字段 i( 偏 移 为 0) 和 j( 仿 移 为 5) 的 4 字 节 对 齐 要 求 的 。 取而代之 地 ， 编译 
做 在 字段 c 和 3j 之 间 插 入 一 个 3 字 节 的 间 队 (在 此 用 蓝 色 阴影 表示 ): 


偏 移 0 4 5 8 各: 
内 容 | i le] ji | 


结果 ，j 的 偏 移 量 为 8， 而 整个 结构 的 大 小 为 12 字 节 。 此 外 ， 编译 器 必须 保证 任何 
struct S1 * 类 型 的 指针 p 都 满足 4 字 节 对 齐 。 用 我 们 前 面 的 符号 ， 设 指针 p 的 值 为 zs。 
那么 ，z 必 须 是 4 的 倍数 。 这 就 保证 了 p-> i( 地 址 zx,) 和 p-> j( 地 址 zx; 十 8) 都 满足 它们 
的 4 字 节 对 齐 要 求 。 
男 外 ， 编 译 帮 结构 的 末尾 可 能 需要 一 些 填 充 ， 这样 结 构 数 组 中 的 每 个 元 素 都 会 满足 它 
的 对 齐 要 求 。 例 如 ， 考 虑 下 面 这 个 结构 声明 : 
struct S2 4 
Lin Ts 
int 了]; 
char €”* 
J 
如 有 果 我 们 将 这 个 结构 打包 成 9 个 字 节 ， 只 要 保证 结构 的 起 始 地 址 满足 4 字 节 对 齐 要 
求 ， 我 们 仍然 能 够 保证 满足 字段 i 和 jj 的 对 齐 要求 。 不 过 ， 考 虑 下 面 的 声明 : 
struct S2 d[4]; 
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分 配 9 个 字 闻 ， 不 可 能 满足 d 的 每 个 元 素 的 对 齐 要 求 ， 因 为 这 些 元 素 的 地 址 分 别 为 zs、zxs 十 9、 
za 十 18 和 za 十 27。 相 反 ， 编 译 敌 会 为 结构 S2 分 配 12 个 字 节 ， 最 后 3 个 字 节 是 浪费 的 空间 : 





这 样 一 来 ，d 的 元 素 的 地 址 分 别 为 za。、xs 十 12、zxs 十 24 和 x 十 36。 只 要 zs 是 4 的 倍数 ， 
所 有 的 对 齐 限 制 就 都 可 以 满足 了 。 
攻 S 练习 题 3. 44 对 下 面 每 个 结构 声明 ， 确 定 每 个 字段 的 偏 移 量 、 结 构 总 的 大 小 ， 以 及 
在 x86-64 下 它 的 对 齐 要 求 : 
入， struct pi LT char es 二 可 aa }3 
B. struct P2 {int 1; char ee» char ds long 13 }; 
~ Struct P3 { short wvL3]; char el3| }; 
. Struct P4 { short w[5]; char *c[3] }; 
E. struct P5 { struct P3 a[l2]; struct P2 七 于 ; 
证 绒 练习 题 3. 45 ”对 于 下 列 结构 声明 回答 后 续 问题 : 


六 


Strwct 六 
char *a; 
short b; 
double es 
char 全 
float e ; 
char f: 
long £; 
int et 

} Tec; 


A. 这 个 结构 中 所 有 的 字段 的 字 节 偏 移 量 是 多 少 ? 

B. 这 个 结构 总 的 大 小 是 多 少 ? 

C. 重新 排列 这 个 结构 中 的 字段 ， 以 最 小 化 浪费 的 空间 ， 然后 再 给 出 重 排 过 的 结构 的 
字 节 偏 移 量 和 总 的 大 小 。 


EE 强制 对 齐 的 情况 

对 于 大 多 数 x86-64 指令 来 说 ， 保 持 数据 对 齐 能 够 提高 效率 ， 但 是 它 不 会 影响 程序 
的 行为 。 另 一 方面 ， 如 果 数 据 没 有 对 齐 ， 某 些 型 号 的 Intel 和 AMD 处 理 器 对 于 有 些 实 
现 多 媒体 操作 的 SSE 指令 ， 就 无 法 正确 执行 。 这 些 指 令 对 16 字 节 数据 块 进 行 操作 ， 在 
SSE 单元 和 内 存 之 间 传 送 数据 的 指令 要 求 内 存 地 址 必须 是 16 的 倍数 。 任 何 试图 以 不 满 
足 对 齐 要 求 的 地 址 来 访问 内 存 都 会 导致 异常 (参见 8.1 节 )， 默 认 的 行为 是 程序 终止 。 

因此 ， 任 何 针 对 x86-64 处 理 器 的 编译 器 和 运行 时 系统 都 必须 保证 分 配 用 来 保存 可 能 会 被 
SSE 寄存 器 读 或 写 的 数据 结构 的 内 存 ， 都 必须 满足 16 字 节 对 齐 。 这 个 要 求 有 两 个 后 果 ， 

@ 任何 内 存 分 配 函 数 (alloca、malloc、calloc 或 realloc) 生 成 的 块 的 起 始 地 址 

都 必须 是 16 的 倍数 。 

@ 大 多 数 函 数 的 栈 帧 的 边界 都 必须 是 16 字 节 的 倍数 。( 这 个 要 求 有 一 些 例 外 。) 

较 近 版 本 的 x86-64 处 理 器 实现 了 AVX 多 媒体 指令 。 除 了 提供 SSE 指令 的 超 集 ， 支 
持 AVX 的 指令 并 没有 强制 性 的 对 齐 要 求 。 
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3. 10 ”在 机 天 级 程序 中 将 控制 与 数据 结合 起 来 


到 目前 为 止 ， 我 们 已 经 分 别 讨论 机 硕 级 代码 如 何 实 现 程序 的 控制 部 分 和 如 何 实现 不 同 
的 数据 结构 。 在 本 节 中 ， 我 们 会 看 看 数据 和 控制 如 何 交 互 。 首 先 ， 深 入 审视 一 下 指针 ， 人 它 
是 C 编程 语言 中 最 重要 的 概念 之 一 ， 但 是 许多 程序 员 对 它 的 理解 都 非常 浅显 。 我 们 复习 符 
号 调试 硕 GDB 的 使 用 ， 用 它 仔细 检查 机 副 级 程序 的 详细 运行 。 接 下 来 ,看 看 理解 机 帮 级 
程序 如 何 帮 助 我 们 研究 缓冲 区 洲 出 ， 这 是 现实 世界 许多 系统 中 一 种 很 重要 的 安全 源 润 。 最 
后 ， 查 看 机 顺 级 程序 如 何 实现 函数 要 求 的 栈 空 间 大 小 在 每 次 执行 时 都 可 能 不 同 的 情况 。 


3. 10.1 理解 指针 


指针 是 C 语言 的 一 个 核心 特色 。 它 们 以 一 种 统一 方式 ， 对 不 同 数据 结构 中 的 元 素 产 生 
引用 。 对 于 编程 新 手 来 说 ， 指 针 总 是 会 带 来 很 多 的 困惑 ， 但 是 基本 概念 其 实 非 常 简单 。 在 
此 ， 我 们 重点 介绍 一 些 指 针 和 它们 映射 到 机 器 代码 的 关键 原则 。 

@ 每 个 指针 都 对 应 一 个 类 型 。 这 个 类 型 表明 该 指针 指向 的 是 哪 一 类 对 象 。 以 下 面 的 指 
针 声 明 为 例 : 
int *ip; 
char **Cpp; 
变量 ip 是 一 个 指向 int 类 型 对 象 的 指针 ,而 cpp 指针 指 疝 的 对 象 自 喘 就 是 一 个 指 问 
char 类 型 对 象 的 指针 。 通 常 ， 如 果 对 象 类 型 为 工 ， 那 么 指针 的 类 型 为 工 x 。 特 殊 的 
void * 类 型 代表 通用 指针 。 比 如 说 ，malloc 函数 返回 一 个 通用 指针 ， 然 后 通过 显 
式 强制 类 型 转换 或 者 赋值 操作 那样 的 隐 式 强制 类 型 转换 ， 将 它 转 换 成 一 个 有 类 型 的 
指针 。 指 针 类 型 不 是 机 器 代码 中 的 一 部 分 ; 它们 是 C 语言 提供 的 一 种 抽象 ， 帮 助 程 
序 员 避免 寻 址 铺 误 。 

每 个 指针 都 有 一 个 值 。 这 个 值 是 某 个 指定 类 型 的 对 象 的 地 址 。 特 殊 的 NULL(0) 值 表 
示 该 指针 没有 指向 任何 地 方 。 

指针 用 “& ”运算 符 创 建 。 这 个 运算 符 可 以 应 用 到 任何 lvalue 类 的 C 表达 式 上 ， 
lvalue 意 指 可 以 出 现在 赋值 语句 左边 的 表达 式 。 这 样 的 例子 包括 变量 以 及 结构 、 
联合 和 数组 的 元 素 。 我 们 已 经 看 到 ， 因 为 Lead 指令 是 设计 用 来 计算 内 存 引 用 的 地 
址 的 ，& 运算 符 的 机 器 代码 实现 常常 用 这 条 指令 来 计算 表达 式 的 值 。 

* 操作 符 用 于 间接 引用 指针 。 其 结果 是 一 个 值 ， 它 的 类 型 与 该 指针 的 类 型 一 致 。 间 
接 引 用 是 用 内 存 引用 来 实现 的 ， 要 么 是 存储 到 一 个 指定 的 地 址 ， 要 么 是 从 指定 的 地 
址 读 取 。 

数组 与 指针 紧密 联系 。 一 个 数组 的 名 字 可 以 像 一 个 指针 变量 一 样 引用 (但 是 不 能 修 
改 )。 数 组 引用 (例如 a[3]) 与 指针 运算 和 间接 引用 (例如 * (a+ 3)) 有 一 样 的 效果 。 
数组 引用 和 指针 运算 都 需要 用 对 象 大 小 对 偏 移 量 进行 伸缩 。 当 我 们 写 表 达 式 p+ i， 
这 里 指针 p 的 值 为 p， 得 到 的 地 址 计算 为 p 十 L.' 1， 这 里 上 是 与 p 相关 联 的 数据 类 
型 的 大 小 。 

将 指针 从 一 种 类 型 强制 转换 成 另 一 种 类 型 ， 只 改变 它 的 类 型 ， 而 不 改变 它 的 值 。 蝇 
制 类 型 转换 的 一 个 效果 是 改变 指针 运算 的 伸缩 。 例 如 ， 如 果 p 是 一 个 char * 类 型 
的 指针 ， 它 的 值 为 p， 那 么 表达 式 (int * )p+ 7 计算 为 p 十 28, 而 (int * ) (p+ 7) 
计算 为 p 十 7。( 回 想 一 下 ， 强 制 类 型 转换 的 优先 级 高 于 加 法 。) 
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@ 指针 也 可 以 指向 函数 。 这 提供 了 一 个 很 强大 的 存储 和 向 代码 传递 引用 的 功能 ， 这 些 引 用 
可 以 被 程序 的 某 个 其 他 部 分 调用 。 例 如 ， 如 果 我 们 有 一 个 函数 ， 用 下 面 这 个 原型 定义 : 


int fun(int x, int *p); 


然后 ， 我 们 可 以 声明 一 个 指针 fp， 将 它 赋 值 为 这 个 函数 ， 代 码 如 下 : 
人 

fp = fun; 

然后 用 这 个 指针 来 调用 这 个 也 数 : 

int y= 1; 


int result = fp(3, &y); 


盟 数 指针 的 值 是 该 郴 数 机 器 代码 表示 中 第 一 条 指令 的 地 址 。 


6 是 王 站 = 放 疏导 半 3 汪 函 数 指针 
函数 指针 声明 的 语法 对 程序 员 新 手 来 说 特别 难以 理解 。 对 于 以 下 上 声明: 
int (*f) (int*); 


要 从 里 (从 “f” 开 始 ) 往 外 读 。 因 此 ， 我们 看 到 像 “(*f)” 表 明 的 那样 ，f 是 一 个 指针 ; 
而 “(*f) (int* )” 表 明王 是 一 个 指向 函数 的 指针 ， 这 个 函数 以 一 个 int* 作为 参数 。 
最 后 ， 我 们 看 到 ， 它 是 指向 以 int * 为 参数 并 返回 int 的 函数 的 指针 。 

* 两 边 的 括号 是 必需 的 ， 否 则 声明 变 成 

int *f(int*); 
它 会 被 解读 成 

(11 %) FDS 
也 就 是 说 ， 它 会 被 解释 成 一 个 函数 原型 ， 声 明了 一 个 函数 f， 它 以 一 个 int * 作为 参数 
并 返回 一 个 int* 。 

Kernighan 和 Ritchie [61，5. 12 节 j 提 供 了 一 个 有 关 阅 读 C 声明 的 很 有 帮助 的 教程 。 


3. 10.2 应 用 : 使 用 GDB 调试 背 


GNU 的 调试 副 GDB 提供 了 许多 有 用 的 特性 ， 支 持 机 器 级 程序 的 运行 时 评估 和 分 析 。 
对 于 本 书 中 的 示例 和 练习 ， 我 们 试图 通过 阅读 代码 ， 来 推断 出 程序 的 行为 。 有 了 GDB， 
可 以 观察 正在 运行 的 程序 ， 同 时 又 对 程序 的 执行 有 相当 的 控制 ， 这 使 得 研究 程序 的 行为 变 
为 可 能 。 

图 3-39 给 出 了 一 些 GDB 命令 的 例子 ， 帮助 研究 机 器 级 x86-64 程序 。 先 运行 OBJ- 
DUMP 来 获得 程序 的 反 汇 编 版 本 ， 是 很 有 好 处 的 。 我 们 的 示例 都 基于 对 文件 prog 运行 
GDB， 程 序 的 描述 和 反 汇 编 见 3. 2. 3 节 。 我 们 用 下 面 的 命令 行 来 启动 GDB: 

linux> gdb Prog 


通常 的 方法 是 在 程序 中 感 兴趣 的 地 方 附近 设置 断 点 。 断 点 可 以 设置 在 函数 入 口 后 面 ， 
或 是 一 个 程序 的 地 址 处 。 程 序 在 执行 过 程 中 过 到 一 个 断 点 时 ， 程 序 会 停 下 来 ， 并 将 控制 返 
回 给 用 户 。 在 断 点 处 ,我们 能 够 以 各 种 方式 查看 各 个 寄存 器 和 内 存 位 置 。 我 们 也 可 以 单 步 
跟踪 程序 ， 一 次 只 执行 几 条 指令 ， 或 是 前 进 到 下 一 个 断 点 。 

















退出 GDB 
运行 程序 (在 此 给 出 命令 行 参 数 ) 
停止 程序 





在 函数 multstore 入 口 处 设置 断 点 
在 地 址 0x400540 处 设置 断 点 
删除 断 点 1 
删除 所 有 断 点 


break multstore 


break * Ox400540 








delete 1 





delete 


执行 1 条 指令 
执行 4 条 指令 
类 似 于 stepi， 但 以 函数 调用 为 单位 
继续 执行 

运行 到 当前 函数 返回 





stepi 





stepi 4 











下 全 区 七 


continue 








finish 


检查 代码 






























disas 反 汇 编 当 前 函数 

disas multstore 反 汇 编 图 数 multstore 

disas 0x400544 反 汇 编 位 于 地 址 0x400544 附近 的 函数 
disas 0x400540, 0x40054dq 反 汇 编 指 定 地 址 范围 内 的 代码 









brjnt /区 5 以 十 六 进 制 输出 程序 计数 顺 的 值 


检查 数据 


print $rax 













以 十 进 制 输 出 srax 的 内 容 

以 十 六 进 制 输出 Srax 的 内 容 

以 二 进 制 输出 $rax 的 内 容 

输出 0x100 的 十 进 制 表示 

输出 555 的 十 六 进 制 表示 

以 十 六 进 制 输出 szsp 的 内 容 加 上 8 
输出 位 于 地 址 0x7fffffffe818 的 长 整数 
输出 位 于 地 址 %$rsp 十 8 处 的 长 整数 

检查 从 地 址 0x7fffffffe818 开始 的 双 (8 字 节 ) 字 
检查 函数 multstore 的 前 20 个 字 节 






print /x $rax 





print /t S$rax 








print Ox100 






print /x 555 
print /x ($rsp+ 8) 
print *(1ong *) Ox7fffffffe818 






print *(Tore *) (rept 8) 
x/2g Ox7fffffffe818 






x/20bmuiltstore 
有 用 的 信息 














info ftrame 有 关 当 前 栈 帧 的 信息 
jnfo regijsters 所 有 寄存 锯 的 值 








获取 有 关 GDB 的 信息 
和 3-39 ”GDB 命令 示例 。 说 明了 一 些 GDB 支持 机 器 级 程序 调试 的 方式 
正如 我 们 的 示例 表明 的 那样 ，GDB 的 命令 语法 有 点 星 深 ,但 是 在 线 帮 助 信息 (用 GDB 
的 help 命令 调用 ) 能 克服 这 些 毛 病 。 相 对 于 使 用 命令 行 接口 来 访问 GDB， 许 多 程序 员 更 
愿意 使 用 DDD， 它 是 GDB 的 一 个 扩展 ， 提 供 了 图 形 用 户 界 面 。 


3. 10.3 ”内存 越界 引用 和 缓冲 区 溢出 


我 们 已 经 看 到 ，C 对 于 数组 引用 不 进行 任何 边界 检查 ， 而 且 局 部 变量 和 状态 信息 ( 例 
如 保存 的 寄存 器 值 和 返回 地 址 ) 都 存放 在 栈 中 。 这 两 种 情况 结合 到 一 起 就 能 导致 产 重 的 程 
序 错误 ， 对 越界 的 数组 元 素 的 写 操作 会 破坏 存储 在 栈 中 的 状态 信息 。 当 程序 使 用 这 个 被 破 





help 
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坏 的 状态 ， 试 图 重新 加 载 寄 存 希 或 执行 ret 指令 时 ， 就 会 出 现 很 严重 的 错误 。 

一 种 特别 稼 见 的 状态 破坏 称 为 缓冲 区 溢出 (buffer overflow)。 通 常 ， 在 栈 中 分 配 某 个 
字符 数组 来 保存 一 个 字符 串 ， 但 是 字符 串 的 长 度 超出 了 为 数组 分 配 的 空间 。 下 面 这 个 程序 
示例 就 说 明了 这 个 问题 : 


/* Implementation of library function gets() */ 
char *gets(char *s) 
了 近世 礁 3 
char *dest = S; 
While ((c = getchar()) != '\n' && c != EOF) 
*dest++ = €; 
if (c == EOF && dest == S) 
/* No characters read */ 
return NULL ; 
*dest++ = '\0'; /* Terminate string */ 
return s; 


} 


/* Read input line and write it back */ 
void echo() 


{ 
char buf[8]; /* Way too small! */ 
gets(buf); 
puts (buf ) ; 

} 


前 面 的 代码 给 出 了 库 孔 数 gets 的 一 个 实现 ,用 来 说 明 这 个 函数 的 严重 问题 。 它 从 标准 
输入 读 人 人 一行, 在 遇 到 一 个 回 车 换行 字符 或 某 个 错误 情况 时 停止 。 它 将 这 个 字符 串 复 制 到 
参数 s 指明 的 位 置 , 并 在 字符 串 结 尾 加 上 null 字符 。 在 函数 echo 中 ,我 们 使 用 了 gets， 
这 个 函数 只 是 简单 地 从 标准 输入 中 读 入 一 行 ， 再 把 它 回 送 到 标准 输出 。 

gets 的 问题 是 它 没 有 办 法 确定 是 否 为 保存 整个 字符 串 分 配 了 足够 的 空间 。 在 echo 未 
例 中 ， 我 们 故意 将 缓冲 区 设 得 非常 小 只 有 8 个 字 节 长 。 任 何 长 度 超 过 7 个 字符 的 字符 
串 都 会 导致 写 越界 。 

检查 GCC 为 echo 产生 的 汇编 代码 ， 看 看 栈 是 如 何 组 织 的 : 


Void echol) 





1 echo: 

2 subqg $24, hrsp Allocate 24 bytes on stack 
3 movg hrsp, hrdi Compute buf as Yrsp 

4 call gets Call gets 

5 movg rsp, %rdi Compute buf as Yrsp 

6 call puts Call puts 

7 addq $24, %rsp Deallocate stack Space 

8 ret Return 


图 3-40 画 出 了 echo 执行 时 栈 的 组 织 。 该 程序 把 栈 指 针 减 去 了 24( 第 2 行 )， 在 栈 上 分 
配 了 24 个 字 节 。 字 符 数 组 buf 位 于 栈 项 ， 可 以 看 到 ,%rsp 被 复制 到 srqi 作为 调用 gets 
和 puts 的 参数 。 这 个 调用 的 参数 和 存储 的 返回 指针 之 间 的 16 字 世 是 未 被 使 用 的 。 只 要 用 
户 输入 不 超过 7 个 字符 ，gets 返回 的 字符 串 ( 包 括 结尾 的 nul1) 就 能 够 放 进 为 puf 分 配 的 
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空间 里 。 不 过 ,长 一 些 的 字符 串 就 会 导致 gets 覆盖 栈 上 存储 的 某 些 信息 。 随 着 字符 串 变 
长 ， 下 面 的 信息 会 被 破坏 : 


输入 的 字符 数量 
未 被 使 用 的 栈 空间 
2 











附加 的 被 破坏 的 状态 


返回 地 直 
caller 中 保存 的 状态 


字符 串 到 23 个 字符 之 前 都 没有 严重 
的 后 果 ， 但 是 超过 以 后 ， 返 回 指针 的 值 以 
及 更 多 可 能 的 保存 状态 会 被 破坏 。 如 果 存 
储 的 返回 地 址 的 值 被 破坏 了 ， 那么 ret 指 
令 ( 第 8 行 ) 会 导致 程序 跳 转 到 一 个 完全 意 
想不到 的 位 置 。 如 果 只 看 C 代码 ， 根 本 就 
不 可 能 看 出 会 有 上 面 这 些 行 为 。 只 有 通过 
癸 究 机 副 代 人 码 级 别 的 程序 才能 理解 像 图 5-40 eche 函数 的 栈 组 织 。 字 符 数 组 buf 就 在 保存 


<——$%rsp+24 





<——buf=%rsp 





gets 这样 的 函数 进行 的 内 存 越 界 写 的 的 状态 下 面 。 对 buf 的 越界 写 会 破坏 程序 的 
影响 。 0 


我 们 的 echo 代码 很 简单 ， 但 是 有 点 太 随 意 了 。 更 好 一 点 的 版 本 是 使 用 fgets 函数 ， 
它 包 括 一 个 参数 ， 限 制 待 恋人 的 最 大 字 节 数 。 家 庭 作 业 3.71 要 求 你 写 出 一 个 能 处 理 任意 
长 度 输入 字符 串 的 echo 函数 。 通 第 ， 使 用 gets 或 其 他 任何 能 导致 存储 溢出 的 函数 ， 都 
是 不 好 的 编程 习惯 。 不 注 的 是 ， 很 多 和 常用 的 库 阴 数 ， 包 插 strcpy、strcat 和 sprintf， 
都 有 一 个 属性 不 需要 告诉 它们 目标 缓冲 区 的 大 小 ， 就 产生 一 个 字 节 序列 L97j。 这 样 的 
情况 就 会 导致 缓冲 区 溢出 漏洞 。 
必 汉 练习 题 3. 46 图 3-41 是 一 个 函数 的 (不 太 好 的 ) 实 现 ， 这 个 函数 从 标准 输入 读 入 一 行 ， 
将 字符 串 复 制 到 新 分 配 的 存储 中 ， 并 返回 一 个 指向 结果 的 指针 。 
考虑 下 面 这 样 的 场景 。 调 用 过 程 get Line， 返 回 地 址 等 于 0x400076， 寄 存 器 
srbx 等 于 0x0123456789ABCDEF。 输 入 的 字符 上 串 为 “0123456789012345678901234”。 程 
序 会 因为 段 错误 (segmentation fault) 而 中 止 。 运行 GDB， 确 定 错误 是 在 执行 get line 
的 ret 指令 时 发 生 的 。 
A. 填写 下 图 ， 尽 可 能 多 地 说 明 在 执行 完 反 汇编 代码 中 第 3 行 指令 后 栈 的 相关 信息 。 
在 右边 标注 出 存储 在 栈 中 的 数字 含意 (例如 “返回 地 址 ”>) ， 在 方 框 中 写 出 它们 的 十 
六 进 制 值 ( 如 果 知 道 的 话 )。 每 个 方 框 都 代表 8 个 字 节 。 指 出 %$rsp 的 位 置 。 记 住 ， 
字符 0 一 9 的 ASCII 代码 是 0x3 一 0x39。 


00 00 00 00 00 40 00 76| 返回 地 址 








B. 修改 你 的 图 ， 展 现 调用 gets 的 影响 (第 5 行 )。 
C. 程序 应 该 试图 返回 到 什么 地 址 ? 
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D. 当 get Line 返回 时 ， 哪 个 ( 些 ) 寄 存 器 的 值 被 破坏 了 ? 
E. 除了 可 能 会 缓冲 区 溢出 以 外 ，get line 的 代码 还 有 哪 两 个 错误 ? 


/* This is very low-gquality code. 
It is intended to illustrate bad programming practices. 
See Practice Problem 3.46. */ 

char *get._line() 


{ 


char buf[4]; 


char *result; 

gets (buf); 

result = malloc(strlen(buf)):; 
strcpy(result, buf); 

return result; 





a ) C 代 码 


char *get_line() 
0000000000400720 <get_line>: 
400720: 53 Push  %rbx 
400721: 48 83 ec 10 sub $0Ox10 ,hrsp 
Diagram stack at this point 
400725: 48 89 e7 moOV rep., srdi 
400728: ee8 73 ff ff ff callq 4006a0 <gets> 


Modify diagram to show stack contents at this point 





b ) 对 gets 调 用 的 反 汇 编 
图 3-41 练习 题 3. 46 的 C 和 反 汇 编 代 码 


缓冲 区 溢出 的 一 个 更 加 致命 的 使 用 就 是 让 程序 执行 它 本 来 不 愿意 执行 的 函数 。 这 是 一 
种 最 篆 见 的 通过 计算 机 网 络 攻 击 系统 安全 的 方法 。 通 常 ， 输 入 给 程序 一 个 字符 串 ， 这 个 字 
符 串 包含 一 些 可 执行 代码 的 字 节 编码 ， 称 为 攻击 代码 (exploit code) ， 另 外 ， 还 有 一 些 字 节 
会 用 一 个 指 回 攻击 代码 的 指针 覆盖 返回 地 址 。 那 么 ， 执 行 ret 指令 的 效果 就 是 跳 转 到 攻击 
代码 。 

在 一 种 攻击 形式 中 ， 攻 击 代 人 码 会 使 用 系统 调用 启动 一 个 shell 程序 ， 给 攻击 者 提供 一 
组 操作 系统 函数 。 在 为 一 种 攻击 形式 中 ， 攻 击 代 码 会 执行 一 些 未 授权 的 任务 ， 修 复 对 栈 的 
破坏 ， 然 后 第 二 次 执行 ret 指令 ，( 表 面 上 ) 正 常 返 回 到 调用 者 。 

让 我 们 来 看 一 个 例子 ,在 1988 年 11 月 ， 著 名 的 Internet 蠕虫 病毒 通过 Internet 以 四 
种 不 同 的 方法 获取 对 许多 计算 机 的 访问 。 一 种 是 对 finger 守护 进程 fingerd 的 缓冲 区 溢 
出 攻击 ，fingerd 服务 FINGER 命令 请 求 。 通 过 以 一 个 适当 的 字符 串 调用 FINGER ， 蠕 
虫 可 以 使 远程 的 守护 进程 缓冲 区 洪 出 并 执行 一 段 代 码 ， 让 蠕虫 访问 远程 系统 。 一 旦 蠕虫 获 
得 了 对 系统 的 访问 ， 它 就 能 自我 复制 ， 几 乎 完全 地 消耗 掉 机 器 上 所 有 的 计算 资源 。 结 果 ， 
在 安全 专家 制定 出 如 何 消 除 这 种 蠕虫 的 方法 之 前 ， 成 百 上 千 的 机 咒 实 际 上 都 瘫痪 了 。 这 种 
蠕虫 的 始作俑者 最 后 被 抓 住 并 被 起 诉 。 时 至 今日 ， 人 们 还 是 不 断 地 发 现 遭 受 缓 冲 区 溢出 攻 
击 的 系统 安全 漏洞 ， 这 更 加 突显 了 仔细 编写 程序 的 必要 性 。 任 何 到 外 部 环境 的 接口 都 应 该 
是 “防弹 的 ”， 这 样 ， 外 部 代理 的 行为 才 不 会 导致 系统 出 现 错误 。 
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黑河 蠕虫 和 病毒 


蠕虫 和 病毒 都 试图 在 计算 机 中 传播 它们 自己 的 代码 段 。 正 如 Spafford[ 105 |] 所 述 ， 
蠕虫 (worm) 可 以 自己 运行 ， 并 且 能 够 将 自己 的 等 效 副本 传播 到 其 他 机 器 。 病 毒 (virus) 
能 将 自己 添加 到 包括 操作 系统 在 内 的 其 他 程序 中 ， 但 它 不 能 独立 运行 。 在 一 些 大 众 媒 体 
中 ,“ 病 毒 ” 用 来 指 各 种 在 系统 间 传 播 攻击 代码 的 策略 ， 所 以 你 可 能 会 听 到 人 们 把 本 来 
应 该 叫做 “蠕虫 ”的 东西 称 为 “病毒 ”。 


3. 10. 4 对 抗 缓冲 区 溢出 攻击 


缓冲 区 溢出 攻击 的 普遍 发 生 给 计算 机 系统 造成 了 许多 的 麻烦 。 现 代 的 编译 如 和 操作 系 
统 实现 了 很 多 机 制 ， 以 避免 遭受 这 样 的 攻击 ， 限 制 人 侵 者 通过 缓冲 区 溢出 攻击 获得 系统 控 
制 的 方式 。 在 本 节 中 ， 我 们 会 介绍 一 些 Linux 上 最 新 GCC 版 本 所 提供 的 机 制 。 

1. 栈 随 机 化 

为 了 在 系统 中 插入 攻击 代码 ， 攻 击 者 既 要 插入 代码 ， 也 要 插入 指 癌 这 段 代码 的 指针 ， 
这 个 指针 也 是 攻击 字符 串 的 一 部 分 。 产 生 这 个 指针 需要 知道 这 个 字符 串 放置 的 栈 地 址 。 在 
过 去 ,程序 的 栈 地 址 非常 容易 预测 。 对 于 所 有 运行 同样 程序 和 操作 系统 版 本 的 系统 来 说 ， 
在 不 同 的 机 器 之 间 ， 栈 的 位 置 是 相当 固定 的 。 因 此 ， 如 果 攻 击 者 可 以 确定 一 个 常见 的 Web 
服务 占 所 使 用 的 栈 空间 ， 就 可 以 设计 一 个 在 许多 机 右上 都 能 实施 的 攻击 。 以 传染 病 来 打 个 
比方 ， 许 多 系统 都 容易 受到 同一 种 病毒 的 攻击 ， 这 种 现象 常 被 称 作 安全 单一 化 (security 
monoculture)| 96 |。 

栈 随 机 化 的 思想 使 得 栈 的 位 置 在 程序 每 次 运行 时 都 有 变化 。 因 此 ， 即 使 许多 机 需 都 运 
行 同样 的 代码 ， 它们 的 栈 地 址 都 是 不 同 的 。 实 现 的 方式 是 : 程序 开始 时 ， 在 栈 上 分 配 一 段 
0 一 nn 字 节 之 间 的 随机 大 小 的 空间 ， 例 如， 使 用 分 配子 数 alloca 在 栈 上 分 配 指 定 字 节 数 量 
的 空间 。 程 序 不 使 用 这 段 空 间 ， 但 是 它 会 导致 程序 每 次 执行 时 后 续 的 栈 位 置 发 生 了 变化 。 
分 配 的 范围 n 必须 足够 大 ， 才 能 获得 足够 多 的 栈 地 址 变化 ， 但 是 又 要 足够 小 ， 不 至 于 浪费 
程序 太 多 的 空间 。 

下 面 的 代码 是 一 种 确定 “典型 的 ” 栈 地 址 的 方法 : 

int main() { 

long local; 
printf("local at %p\n", &local); 


return 0; 


} 


这 段 代码 只 是 简单 地 打印 出 main 函数 中 局 部 变量 的 地 址 。 在 32 位 Linux 上 运行 这 段 代 码 
10 000 次 ， 这 个 地 址 的 变化 范围 为 0xff7fc59c 到 0xffffd09c， 范 围 大 小 大 约 是 2*。 在 
更 新 一 点 儿 的 机 器 上 运行 64 位 Linux， 这 个 地 址 的 变化 范围 为 0x7fff0001b698 到 
0x7ffffffaa4a8， 范 围 大 小 大 约 是 2”。 

在 Linux 系统 中 ， 栈 随机 化 已 经 变 成 了 标准 行为 。 它 是 更 大 的 一 类 技术 中 的 一 种 ， 这 
类 技术 称 为 地 址 空间 布局 随机 化 (Address-Space Layout Randomization) ， 或 者 简称 ASLR 
L99]。 采 用 ASLR， 每 次 运行 时 程序 的 不 同 部 分 ， 包 括 程序 代码 、 库 代码 、 栈 、 全 局 变量 
和 堆 数 据 ， 都 会 被 加 载 到 内 存 的 不 同 区 域 。 这 就 意味 着 在 一 台 机 器 上 运行 一 个 程序 ， 与 在 
其 他 机 器 上 运行 同样 的 程序 ， 它 们 的 地 址 映射 大 相 径 庭 。 这 样 才能 够 对 抗 一 些 形式 的 
攻击 。 
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然而 ， 一 个 执著 的 攻击 者 总 是 能 够 用 蛮 力 克服 随机 化 ， 他 可 以 反复 地 用 不 同 的 地 址 进 
行 攻击 。 一 种 常见 的 把 戏 就 是 在 实际 的 攻击 代码 前 插入 很 长 一 段 的 nop( 读 作 “no op”，no 
operatioin 的 缩写 ) 指 令 。 执 行 这 种 指令 除了 对 程序 计数 器 加 一 ， 使 之 指 癌 下 一 条 指令 之 
外 ， 没 有 任何 的 效果 。 只 要 攻击 者 能 够 猜 中 这 段 序 列 中 的 某 个 地 址 ， 程 序 就 会 经 过 这 个 序 
列 ， 到 达 攻 击 代 码 。 这 个 序列 常用 的 术语 是 “ 空 操作 雪 概 (nop sled)”[97j， 意 思 是 程序 
会 “ 滑 过 ”这 个 序列 。 如 果 我 们 建立 一 个 256 个 字 节 的 nop sled， 那 么 枚 举 2”= 二 32 768 个 
起 始 地 址 ， 就 能 破解 x==2” 的 随机 化 ， 这 对 于 一 个 顽固 的 攻击 者 来 说 ， 是 完全 可 行 的 。 对 
于 64 位 的 情况 ， 要 尝试 枚 举 2”= 二 16 777 216 就 有 点 儿 令 人 旦 惧 了 。 我 们 可 以 看 到 栈 随 机 
化 和 其 他 一 些 ASLR 技术 能 够 增加 成 功 攻击 一 个 系统 的 难度 ， 因 而 大 大 降低 了 病毒 或 者 蠕 
虫 的 传播 速度 、 但 是 也 不 能 提供 完全 的 安全 保障 。 
证 侧 练习 题 3. 47 ”在 运行 Linux 版 本 2. 6.16 的 机 器 上 运行 栈 检查 代码 10 000 次 ， 我 们 获 

得 地 址 的 范围 从 最 小 的 0xffffb754 到 最 大 的 0xffffd754。 

A. 地 址 的 大 概 范围 是 多 大 ? 

B: 如 果 我 们 尝试 一 个 有 128 字 节 nop sled 的 缓冲 区 溢出 ， 要 想 穷 尽 所 有 的 起 始 地 址 ， 

需要 尝试 多 少 次 ? 

2. 栈 破 坏 检测 

计算 机 的 第 二 道 防 线 是 能 够 检测 到 何 时 栈 已 经 被 破坏 。 我 们 在 echo 也 数 示 例 (图 3- 
40) 中 看 到 ， 破 坏 通常 发 生 在 当 超越 局 部 缓冲 区 的 边界 时 。 在 C 语言 中 ,没有 可 靠 的 方法 
来 防止 对 数组 的 越界 写 。 但 是 ,我 们 能 够 在 发 生 了 越界 写 的 时 候 ， 在 造成 任何 有 害 结果 之 
前 ， 尝 试 检测 到 它 。 

最 近 的 GCC 版 本 在 产生 的 代码 中 加 
人 和信 了 一 种 栈 保 护 者 (stack protector) 机 制 ， 调用 者 
来 检测 缓冲 区 越界 。 其 思想 是 在 栈 帧 中 任 的 栈 帧 
何 局 部 缓冲 区 与 栈 状 态 之 间 存 储 一 个 特殊 
的 金 丝 稚 (canary) 值 >， 如 图 3-42 所 示 
[26，97]。 这 个 金 丝 淮 值 ， 也 称 为 哨兵 值 ”的 楼 帧 43[ 。 金 丝 党 
(guard value) ， 是 在 程序 每 次 运行 时 随机 Erle aa loebur srsp 


产生 的 ， 因 此 ， 攻 击 者 没有 简单 的 办 法 能 图 3-42 echo 函数 具有 栈 保 护 者 的 栈 组 织 ( 在 数组 


<—— rsp+24 





够 知道 它 是 什么 。 在 恢复 寄存 器 状态 和 从 buf 和 保存 的 状态 之 间 放 了 一 个 特殊 的 “ 金 
: 前 ， 和 在 广 个 全 好 上 丝 雀 ” 值 。 代 码 检查 这 个 金 丝 省 值 ， 确 定 栈 
因数 返回 之 前 ， 程 序 检查 这 个 金 丝 仪 人 是 ee te 


否 被 该 函数 的 某 个 操作 或 者 该 也 数 调用 的 
基 个 图 数 的 某 个 操作 改变 了 。 如 果 是 的 ， 那 么 程序 异常 中 止 。 

最 近 的 GCC 版 本 会 试 着 确定 一 个 困 数 是 否 容 易 遭 受 栈 溢出 攻击 ， 并 且 上 自动 插 和 人 这 种 溢出 
检测 。 实 际 上 ， 对 于 前 面 的 栈 溢出 展示 ， 我 们 不 得 不 用 命令 行 选项 “-fno-stack-Protector” 
来 阻止 GCC 产生 这 种 代码 。 当 不 用 这 个 选项 来 编译 echo 图 数 时 ， 也 就 是 允许 使 用 栈 保 护 
者 ， 得 到 下 面 的 汇编 代码 : 


void echo() 
1 echo : 
2 subq $24,， hrsp Allocate 24 bytes on stack 


日 术语 “ 金 丝 淮 " 源 于 历史 上 用 这 种 鸟 在 煤矿 中 察觉 有 毒 的 气体 。 


3 movg hfs:40, hrax Retrieve canary 

4 movd hrax, 8(hrsp) Store on stack 

5 xorl heax, heax Zero out register 

6 movd hrsp, hrdi Compute buf as %rsp 

7 call gets Call gets 

8 movqg rsp, wrdi Compute buf as %rsp 

9 eal puts Call puts 

10 movg SHESD). /ES Retrieve canary 

11 XOrg fs:40, %rax Compare to stored value 
2 je , 工 9 If =, goto ok 

13 call __stack_chk_fail Stack corrupted! 

14 LL9: ok: 

15 addq $24, hrsp Deallocate stack space 
16 ret 


这 个 版 本 的 函数 从 内 存 中 读 出 一 个 值 ( 第 3 行 )， 再 把 它 存 放 在 栈 中 相对 于 gsrsp 仿 移 
量 为 8 的 地 方 。 指 令 参 数 sfs:40 指明 金 丝 和 省 值 是 用 段 寻 址 (Segmented addressing) 从 内 和 存 
中 读 人 的 ， 段 寻 址 机 制 可 以 追溯 到 80286 的 寻 址 ， 而 在 现代 系统 上 运行 的 程序 中 已 经 很 少 
见 到 了 。 将 金 丝 淮 值 存放 在 一 个 特殊 的 段 中 ， 标 志 为 “只 读 "， 这 样 攻击 者 就 不 能 窗 盖 存 
储 的 金 丝 淮 值 。 在 恢复 寄存 器 状态 和 返回 前 ， 了 水 数 将 存储 在 栈 位 置 处 的 值 与 金 丝 鹤 值 做 比 
较 ( 通 过 第 11 行 的 xorqg 指令 )。 如 果 两 个 数 相 同 ，xorqg 指令 就 会 得 到 0， 也 数 会 按照 正常 
的 方式 完成 。 非 零 的 值 表 明 栈 上 的 金 丝 汰 值 被 修改 过 ， 那 么 代码 就 会 调用 一 个 错误 处 理 
例 程 。 

栈 保 护 很 好 地 防止 了 缓冲 区 溢出 攻击 破坏 存储 在 程序 栈 上 的 状态 。 它 只 会 市 来 很 小 的 
性 能 损失 ， 特 别 是 因为 GCC 只 在 函数 中 有 局 部 char 类 型 缓冲 区 的 时 候 才 插入 这 样 的 代 
码 。 当 然 ， 也 有 其 他 一 些 方法 会 破坏 一 个 正在 执行 的 程序 的 状态 ， 但 是 降低 栈 的 易 受 攻击 
性 能 够 对 抗 许多 常见 的 攻击 策略 。 

SS 练习 题 3. 48 函数 intlen、len 和 iptoa 提供 了 一 种 很 纠结 的 方式 ， 来 计算 表示 一 
个 整数 所 需要 的 十 进 制 数字 的 个 数 。 我 们 利用 它 来 研究 GCC 栈 保 护 者 措施 的 一 些 
情况 。 
int len(char *s) { 


return strlen(s); 


} 


void iptoa(char *s, long *p) 1 
long val = *p; 
sprintf(s, "hld", val); 


} 

int intlen(long x) +{ 
long Vv; 
char buf [12]:; 
V = XxX; 


iptoa(buf, &v); 
return 1Len(buf ) ; 


} 
下 面 是 intlen 的 部 分 代码 ， 分 别 由 带 和 不 带 栈 保护 者 编译 : 
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int intlen(long XxX) 


X in prdi 

intlen: 
subq $56, hrsp 
movg fs:40, hrax 
movg hrax, 40(%rsp) 


. Int intlien(long Xx) 
x in fradi 
intlen: 

subq $40 ， jprSsP xorl Weax, heax 
movdq hrdi，8(prSP) 
leadq 5S(Xrsp) rs 
leaqg Othresp) , Yrat 
call iptoa 


movqg hrdi, 24(%rsp) 


leaqg 24(%hrsp), hrsi 
movd wrsp, hrdi 
call iptoa 





a ) 不 带 保 护 者 b ) 带 保护 者 


A. 对 于 两 个 版 本 : buf、v 和 金 丝 省 值 (如 果 有 的 话 ) 分 别 在 栈 帧 中 的 什么 位 置 ? 

B. 在 有 保护 的 代码 中 ， 对 局 部 变量 重新 排列 如 何 提供 更 好 的 安全 性 来 对 抗 缓冲 区 越界 攻击 ? 

3. 限制 可 执行 代码 区 域 

最 后 一 招 是 消除 攻击 者 癌 系 统 中 插入 可 执行 代码 的 能 力 。 一 种 方法 是 限制 哪些 内 存 区 域 能 
够 存放 可 执行 代码 。 在 典型 的 程序 中 ， 只 有 保存 编译 器 产生 的 代码 的 那 部 分 内 存 才 需要 是 可 执 
行 的 。 其 他 部 分 可 以 被 限制 为 只 允许 读 和 写 。 正 如 第 9 章 中 会 看 到 的 ， 虚 拟 内 存 空间 在 逻辑 上 
被 分 成 了 页 (page)， 上 典型 的 每 页 是 2048 或 者 4096 个 字 节 。 人 硬件 支持 多 种 形式 的 内 存 保护 ， 能 够 
指明 用 户 程序 和 操作 系统 内 核 所 允许 的 访问 形式 。 许 多 系统 允许 控制 三 种 访问 形式 : 读 ( 从 内 存 
读数 据 )、 写 (存储 数据 到 内 存 ) 和 执行 (将 内 存 的 内 容 看 作 机 器 级 代码 )。 以 前 ，x86 体系 结构 将 
读 和 执行 访问 控制 合并 成 一 个 1 位 的 标志 ， 这 样 任 何 被 标记 为 可 读 的 页 也 都 是 可 执行 的 。 栈 必 
须 是 既 可 读 又 可 写 的 ， 因 而 栈 上 的 字 节 也 都 是 可 执行 的 。 已 经 实现 的 很 多 机 制 ， 能 够 限制 一 些 
页 是 可 读 但 是 不 可 执行 的 ， 然 而 这 些 机 制 通常 会 带 来 严重 的 性 能 损失 。 

最 近 ，AMD 为 它 的 64 位 处 理 器 的 内 存 保 护 引 入 了 “NX”(No-Execute， 不 执行 ) 位 ， 
将 读 和 执行 访问 模式 分 开 ，Intel 也 跟 进 了 。 有 了 这 个 特性 ， 栈 可 以 被 标记 为 可 读 和 可 写 ， 
但 是 不 可 执行 ， 而 检查 页 是 否 可 执行 由 硬件 来 完成 ， 效 率 上 没有 损失 .。 

有 些 类 型 的 程序 要 求 动 态 产 生 和 执行 代码 的 能 力 。 例 如 ，“ 即 时 (just-in-time)” 编 译 
技术 为 解释 语言 (例如 Java) 编 写 的 程序 动态 地 产生 代码 ， 以 提高 执行 性 能 。 是 否 能 够 将 可 
执行 代码 限制 在 由 编译 占 在 创建 原始 程序 时 产生 的 那个 部 分 中 ， 取 决 于 语言 和 操作 系统 。 

我 们 讲 到 的 这 些 技术 一 一 随机 化 、 栈 保护 和 限制 哪 部 分 内 存 可 以 存储 可 执行 代码 一 一 
是 用 于 最 小 化 程序 缓冲 区 溢出 攻击 漏洞 三 种 最 常见 的 机 制 。 它 们 都 具有 这 样 的 属性 ， 即 不 
需要 程序 员 做 任何 特殊 的 努力 ， 带 来 的 性 能 代价 都 非常 小 ， 其 至 没有 。 单 独 每 一 种 机 制 都 
降低 了 漏洞 的 等 级 ， 而 组 合 起 来 ， 它 们 变 得 更 加 有 效 。 不 幸 的 是 ， 仍 然 有 方法 能 够 攻击 计 
算 机 L85，971， 因 而 蠕虫 和 病毒 继续 危害 着 许多 机 需 的 完整 性 。 


3. 10.5 ”支持 变 长 栈 帧 


到 目前 为 止 ， 我 们 已 经 检查 了 各 种 限 数 的 机 妖 级 代码 ， 但 它们 有 一 个 共同 点 ， 即 编译 
右 能 够 预先 确定 需要 为 栈 帧 分 配 多 少 空 间 。 但 是 有 些 隆 数 ， 需 要 的 局 部 存储 是 变 长 的 。 例 
如 ， 当 函数 调用 alloca 时 就 会 发 生 这 种 情况 。alloca 是 一 个 标准 库 果 数 ， 可 以 在 栈 上 
分 配 任意 字 节 数量 的 存储 。 当 代码 声明 一 个 局 部 变 长 数组 时 ， 也 会 发 生 这 种 情况 。 

虽然 本 节 介 绍 的 内 容 实 际 上 是 如 何 实现 过 程 的 一 部 分 ,但 我 们 还 是 把 它 推 迟到 现在 才 
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讲 ， 因 为 它 需 要 理解 数组 和 对 齐 。 

图 3-43a 的 代码 给 出 了 一 个 包含 变 长 数组 的 例子 。 该 函数 声明 了 n 个 指针 的 局 部 数组 
p， 这 里 nn 由 第 一 个 参数 给 出 。 这 要 求 在 栈 上 分 配 8n 个 字 节 ， 这 里 对 的 值 每 次 调用 该 师 数 
时 都 会 不 同 。 因 此 编译 需 无 法 确定 要 给 该 函数 的 栈 帧 分 配 多 少 空 间 。 此 外 ， 该 程序 还 产生 
一 个 对 局 部 变量 i 的 地 址 引用 ， 因 此 该 变量 必须 存储 在 栈 中 。 在 执行 工程 中 ,程序 必须 有 
够 访问 局 部 变量 i 和 数组 p 中 的 元 素 。 返回 时 ， 该 函数 必须 释放 这 个 栈 帧 ， 并 将 栈 指针 设 
置 为 存储 返回 地 址 的 位 置 。 


long vframe(long n, long idx, long *q) + 
Long 二; 
long *pln]; 
p[L0] = &i; 


for (i = 1; i < n; i++) 
plil] = gq 
return *p[lidx]; 





a ) C 代 码 


long vframe(long n, long idx, long *q) 
n in Krdi, idx in Yrsi, q in Yrdx 
Oniy portions of code shown 
vframe: 
pushq  %rbp Save old %rbp 
movg hrsp, %rbp Set frame pointer 
subq $16, hrsp Allocate space for i (Yrsp = $1) 
leaqg 22(,%rdi,8), %rax 
andqg $-16, hrax 
Subq hrax, hrsp Allocate space for array p (Yrsp = $82) 
leaqg 7 (4rsp), hrax 
shrq $3, hrax 
leag 0( ,NEar,8), Xr8 Set %r8 to &p[0] 
movqg WIG WIC Set Yrcx to &p[0] (Yrcx = p) 


ON Om Wn pp WW NN 一 


| 
~- 


Code for initialization loop 


i in Yrax and on stack, n in %rdi, p in Wrcx, q in Krdx 
,3 : loop: 
movg rdx, (%rcx,%rax,8) Set p[i] to q 
addq $1, hrax Increment i 
movg hrax, -8(%rbp) Store on stack 
‘LL2: 


movVq -BC%rbp), %rax Retrieve i from stack 
cmpq hrdi, hrax Compare i:n 
了 .LL3 If <, goto loop 


Code for function exit 
leave Restore Xrbp and Yrsp 
ret Return 
b ) 生成 的 部 分 汇编 代码 
图 3-43 ”需要 使 用 帧 指针 的 函数 。 变 长 数组 意味 着 在 编译 时 无 法 确定 栈 帧 的 大 小 
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为 了 管理 变 长 栈 帧 ，x86-64 代码 使 用 寄存 器 Srbp 作为 帧 指针 (frame pointer)( 有 时 称 


为 基 指 针 (base pointer)， 这 也 是 srbp 中 bp | “返回 地 址 | 
两 个 字母 的 由 来 ) 。 当 使 用 帧 指针 时 ， 栈 帧 的 | 下 | 
组 织 结构 与 图 3-44 中 函数 vframe 的 情况 一 帧 指针 srbp 一 一 > | 
样 。 可 以 看 到 代码 必须 把 srpp 之 前 的 值 保存 ET 
到 栈 中 ， 因 为 它 是 一 个 被 调用 者 保存 寄存 器 。 人 


然后 在 函数 的 整个 执行 过 程 中 ， 都 使 得 srbp 

指 回 那个 时 刻 栈 的 位 置 ， 然 后 用 固定 长 度 的 

局 部 变量 (例如 1 相对 于 szrbp 的 偏 移 量 来 引 

用 它们 。 8 
图 3-43b 是 GCC 为 函数 vframe 生成 的 

部 分 代码 。 在 函数 的 开始 ， 代 码 建 立 栈 帧 ， 

并 为 数组 p 分 配 空间 。 首 先 把 $rbp 的 当前 值 

压 人 栈 中 ， 将 srbp 设置 为 指向 当前 的 栈 位 置 。 眉 指 外 %rsp 一 


(第 2 一 3 行 )。 然 后 ， 在 栈 上 分 配 16 个 字 节 ， 图 3-44 函数 vframe 的 栈 由 结构 (该 函数 使 用 寄 
其 中 前 8 个 字 节 用 于 存储 局 部 变量 1， 而 后 8 存 器 srbp 作为 帧 指针 。 图 右边 的 注释 供 





个 字 节 是 未 被 使 用 的 。 接 着 ， 为 数组 p 分 配 ie ada 


空间 (第 5 一 11 行 )。 练 习题 3. 49 探讨 了 分 配 多 少 空 间 以 及 将 p 放 在 这 段 空间 的 什么 位 置 。 
当 程 序 到 第 11 行 的 时 候 ， 已 经 (1) 在 栈 上 分 配 了 82 字 节 ， 并 (2) 在 已 分 配 的 区 域内 放置 好 
数组 5p， 至 少 有 8 字 节 可 供 其 使 用 。 

初始 化 循环 的 代码 展示 了 如 何 引 用 局 部 变量 i 和 的 例子 。 第 13 行 表明 数组 元 素 pb 
[i] 被 设置 为 qa。 该 指令 用 寄存 器 $rcx 中 的 值 作为 p 的 起 始 地 址 。 我 们 可 以 看 到 修改 局 部 
变量 i( 第 15 行 ) 和 读 局 部 变量 (第 17 行 ) 的 例子 。i 的 地 址 是 引用 -8 (%rbp)， 也 就 是 相对 
于 帆 指 针 仿 移 量 为 -8 的 地 方 。 

在 消 数 的 结尾 ，leave 指令 将 帧 指针 恢复 到 它 之 前 的 值 (第 20 行 )。 这 条 指令 不 需要 
参数 ， 等 价 于 执行 下 面 两 条 指令 : 


movg %rbp, %rsp Set stack pointer to beginning of frame 
popq %rbp Restore saved Yrbp and set stack ptr 


to end of caller's frame 


也 就 是 ， 首 先 把 栈 指针 设置 为 保存 srbp 值 的 位 置 ， 然 后 把 该 值 从 栈 中 弹出 到 srbp。 这 个 
指令 组 合 具有 释放 整个 栈 帧 的 效果 。 
在 较 早 版 本 的 x86 代码 中 ， 每 个 函数 调用 都 使 用 了 帧 指针 。 而 现在 ， 只 在 栈 帧 长 可 变 
的 情况 下 才 使 用 ， 就 像 函数 vframe 的 情况 一 样 。 历 史上 ， 大 多 数 编译 器 在 生成 IA32 代 
码 时 会 使 用 帧 指针 。 最 近 的 GCC 版 本 放弃 了 这 个 惯例 。 可 以 看 到 把 使 用 帧 指针 的 代码 和 
不 使 用 帧 指针 的 代码 混在 一 起 是 可 以 的 ， 只 要 所 有 的 函数 都 把 srbp 当做 被 调用 者 保存 寄 
存 器 来 处 理 即 可 。 
是 弹 练习 题 3. 49 在 这 道 题 中 ， 我 们 要 探究 图 3-43b 第 5 一 11 行 代码 背后 的 座 辑 ， 它 分 配 
了 变 长 大 小 的 数组 p。 正 如 代码 的 注释 表明 的 ，s1 表 示 执 行 第 4 行 的 subg 指令 之 后 栈 
# 针 的 地 址 。 这 条 指令 为 局 部 变量 i 分 配 空间 。5s 表 示 执 行 第 7 行 的 subq 指令 之 后 
栈 指针 的 值 。 这 条 指令 为 局 部 数组 b 分 配 存储 。 最 后 , 方 表示 第 10~11 行 的 指令 赋 
给 寄存 器 &%r8 和 Srcx 的 值 。 这 两 个 寄存 器 都 用 来 引用 数组 pb。 
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图 3-44 的 右边 画 出 了 si 、5s 和 pp 指示 的 位 置 。 图 中 还 画 出 了 5 和 上 轧 的 值 之 间 可 能 
有 一 个 偏 移 量 为 e 字 节 的 位 置 ， 该 空间 是 未 被 使 用 的 。 数 组 p 的 结尾 和 si 指示 的 位 置 
之 间 还 可 能 有 一 个 偏 移 量 为 el 字 节 的 地 方 。 
A. 用 数学 语言 解释 第 5~7 行 中 计算 % 的 逻辑 。 提 示 : 想 想 一 16 的 位 级 表示 以 及 它 在 
第 6 行 andq 指令 中 的 作用 。 
B. 用 数学 语言 解释 第 8~10 行 中 计算 p 的 逻辑 。 提 示 : 可 以 参考 2.3.7 节 中 有 关 除 
以 2 的 加 的 讨论 。 
C. 对 于 下 面 n 和 ;1 的 值 ， 跟 踪 代 码 的 执行 ， 确 定 ss、p、e1 和 es 的 结果 值 。 





D. 这 段 代码 为 ss 和 p 的 值 提供 了 什么 样 的 对 齐 属性 ? 
3. 11 浮 点 代码 


处 理 副 的 浮 点 体系 结构 包括 多 个 方面 ， 会 影响 对 浮 点 数据 操作 的 程序 如 何 被 映射 到 机 
化 上 ， 包 括 : 

e 如 何 存储 和 访问 浮 点 数值 。 通 常 是 通过 某 种 寄存 器 方式 来 完成 。 

e 对 浮 点 数据 操作 的 指令 。 

9 同 函 数 传递 浮 点 数 参 数 和 从 晴 数 返回 浮 点 数 结果 的 规则 。 

e 国 数 调 用 过 程 中 保存 寄存 器 的 规则 一 一 例如 ， 一 些 寄存 器 被 指定 为 调用 者 保存 ， 而 

其 他 的 被 指定 为 被 调用 者 保存 。 

简要 回顾 历史 会 对 理解 x86-64 的 浮 点 体系 结构 有 所 帮助 。1997 年 出 现 了 Pentium/ 
MMX，Intel 和 AMD 都 引入 了 持续 数 代 的 媒体 (media) 指 令 ， 支持 图 形 和 图 像 处 理 。 这 些 
指令 本 意 是 允许 多 个 操作 以 并 行 模式 执行 ， 称 为 单 指令 多 数据 或 STMD( 读 作 sim-dee) 。 
在 这 种 模式 中 ， 对 多 个 不 同 的 数据 并 行 执行 同一 个 操作 。 近 年 来 ， 这 些 扩 展 有 了 长 足 的 发 
展 。 名 字 经 过 了 一 系列 大 的 修改 ， 从 MMX 到 SSE(Streaming SIMD Extension， 流 式 
SIMD 扩展 )， 以 及 最 新 的 AVX(Advanced Vector Extension， 高 级 回 量 扩展 )。 每 一 代 中 ， 
都 有 一 些 不 同 的 版 本 。 每 个 扩展 都 是 管理 寄存 器 组 中 的 数据 ， 这 些 寄存 器 组 在 MMX 中 称 
为 “MM” 寄 存 器 ，SSE 中 称 为 “XMM” 寄 存 器 ， 而 在 AVX 中 称 为 “YMM” 寄 存 器 ; 
MM 寄存 器 是 64 位 的 ，XMM 是 128 位 的 ， 而 YMM 是 256 位 的 。 所 以 ,每 个 YMM 寄 
存 帮 可 以 存放 8 个 32 位 值 , 或 4 个 64 位 值 ， 这些 值 可 以 是 整数 ， 也 可 以 是 浮 点 数 。 

2000 年 Pentium 4 中 引入 了 SSE2， 媒 体 指 令 开始 包括 那些 对 标量 浮 点 数据 进行 操作 
的 指令 ,使 用 XMM 或 YMM 寄存 器 的 低 32 位 或 64 位 中 的 单个 值 。 这 个 标量 模式 提供 了 
一 组 寄存 副 和 和 指令， 它们 更 类 似 于 其 他 处 理 右 支持 浮 点 数 的 方式 。 所 有 能 够 执行 x86-64 
代码 的 处 理 器 都 支持 SSE2 或 更 高 的 版 本 ， 因 此 x86-64 浮 点 数 是 基于 SSE 或 AVX 的 , 包 
括 传 递 过 程 参 数 和 返回 值 的 规则 L77j。 

我 们 的 讲述 基于 AVX2， 即 AVX 的 第 二 个 版 本 ， 它 是 在 2013 年 Core i7 Haswell 处 
理 融 中 引入 的 。 当 给 定 命令 行 参数 -mavx2 时 ，GCC 会 生成 AVX2 代码 。 基 于 不 同 版 本 的 
SSE 以 及 第 一 个 版 本 的 AVX 的 代码 从 概念 上 来 说 是 类 似 的 ， 不 过 指令 名 和 格式 有 所 不 同 。 
我 们 只 介绍 用 GCC 编译 浮 点 程序 时 会 出 现 的 那些 指令 。 其 中 大 部 分 是 标量 AVX 指令 ,我 


第 3 章 程序 的 机 器 级 表示 205 


们 也 会 说 明 对 整个 数据 向 量 进行 操作 的 指令 出 现 的 情况 。 后 文中 的 网 络 旁 注 OPT: SIMD 
更 全 面 地 说 明了 如 何 利 用 SSE 和 AVX 的 SIMD 功能 读者 可 能 希望 参考 AMD 和 Intel 对 每 
条 指令 的 说 明文 档 L4，51]。 和 整数 操作 一 样 ， 注 意 我 们 表述 中 使 用 的 ATT 格式 不 同 于 这 
些 文档 中 使 用 的 Intel 格式 。 特 别 地 ， 这 两 种 版 本 中 列 出 指令 操作 数 的 顺序 是 不 同 的 。 

如 图 3-45 所 示 ，AVX 浮 点 体系 结构 允许 数据 存储 在 16 个 YMM 寄存 器 中 ， 它 们 的 
名 字 为 $ymm0~%ymm15。 每 个 YMM 寄存 器 都 是 256 位 (32 字 节 )。 当 对 标量 数据 操作 时 ， 
这 些 寄存 右 只 保存 浮 点 数 ， 而 且 只 使 用 低 32 位 (对 于 float) 或 64 位 (对 于 double)。 汇 
编 代 码 用 寄存 器 的 SSE XMM 寄存 器 名 字 %xmm0 一 $xmm15 来 引用 它们 ， 每 个 XMM 寄存 器 
都 是 对 应 的 YMM 寄存 器 的 低 128 位 (16 字 节 )。 


2 127 0 


Symml $xmml 2nd FP 参数 


Symm2 SXmm2 3rd FP 参数 


Symm3 SXMM3 4th FP 参数 


Symm4 $xmmd 5th FP 参数 


Symms5 和 XImm5 6th FP 参数 


Symm6 $xmm6 7th FP 参数 


gSymm7 $xXmm7 8th FP 参数 


Symm8 Sxmm8 调用 者 保存 


和 ymm9 SXmm9 调用 者 保存 


gymm10 %xmm1 0 调用 者 保存 


Symmll1 Sxmml1 调用 者 保存 


Symm12 Sxmm1 2 调用 者 保存 


Symml3 Sxmml 3 调用 者 保存 


Symm1d Sxmm1 4 调用 者 保存 


Syrmmls Sxmm15 调用 者 保存 


图 3-45 媒体 寄存 器 。 这 些 寄存 器 用 于 存放 浮 点 数据 。 每 个 YMM 寄存 器 
保存 32 个 字 节 。 低 16 字 节 可 以 作为 XMM 寄存 器 来 访问 


3. 11. 1 浮 点 传送 和 转换 操作 
图 3-46 给 出 了 一 组 在 内 存 和 XMM 寄存 顺 之 间 以 及 从 一 个 XMM 寄存 器 到 男 一 个 不 
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做 任何 转换 的 传送 浮 点 数 的 指令 。 引 用 内 存 的 指令 是 标量 指令 ， 意 味 着 它们 只 对 单个 而 不 
是 一 组 封装 好 的 数据 值 进行 操作 。 数 据 要 么 保存 在 内 存 中 (由 表 中 的 Ma 和 Ms 指明 )， 要 
么 保存 在 XMM 寄存 絮 中 (在 表 中 用 X 表示 )。 无 论 数据 对 齐 与 否 ， 这 些 指 令 都 能 正确 执 
行 ， 不 过 代码 优化 规则 建议 32 位 内 存 数据 满足 4 字 节 对 齐 ，64 位 数据 满足 8 字 节 对 齐 。 
内 存 引 用 的 指定 方式 与 整数 MOV 指令 的 一 样 ， 包 括 偶 移 量 、 基 址 寄存 项 、 变 址 寄存 货 和 
伸缩 因子 的 所 有 可 能 的 组 合 。 


vmovsd 
vmovaps 


vmovapd 





图 3-46 浮 点 传送 指令 。 这 些 操作 在 内 存 和 寄存 占 之 间 以 及 一 对 寄存 器 之 间 传 送 值 (X，XMM 
寄存 器 (例如 Sxmm3); Ms : 32 位 内 存 范 围 ; Ms : 64 位 内 存 范 围 ) 


GCC 只 用 标量 传送 操作 从 内 存 传送 数据 到 XMM 寄存 器 或 从 XMM 寄存 器 传送 数据 
到 内 存 。 对 于 在 两 个 XMM 寄存 句 之 间 传 送 数据 ，GCC 会 使 用 两 种 指令 之 一 ， 即 用 
vmovaps 传送 单 精 度数 ， 用 vmovapd 传送 双 精 度数 。 对 于 这 些 情 况 ， 程序 复制 整个 寄存 
器 还 是 只 复制 低位 值 既 不 会 影响 程序 功能 ， 也 不 会 影响 执行 速度 ， 所 以 使 用 这 些 指令 还 是 
针对 标量 数据 的 指令 没有 实质 上 的 差别 。 指 令 名 字 中 的 字母 “a’ 表示 “aligned( 对 章 的 )”。 
当 用 于 读 写 内 存 时 ， 如 果 地 址 不 满足 16 字 节 对 齐 ， 它 们 会 导致 异常 。 在 两 个 寄存 融 之 间 
传送 数据 ， 绝 不 会 出 现 错误 对 齐 的 状况 。 
下 面 是 一 个 不 同 浮 点 传送 操作 的 例子 ， 考 虑 以 下 C 也 数 
float float_mov(float vi, float *src, float *dst) +{ 
float v2 = *src; 
*dst = v1; 


return v2; 


上 
与 它 相 关联 的 x86-64 汇编 代码 为 


float float_mov(flioat vi, float *src, float *dst) 
vi in %xmm0, src in Yrdi, dst in Xrsi 


1 float_mov: 

2 vmovaps %hxmmO0, hxmml Copy vi 

3 vmovss (%rdi), %hxmmO Read v2 from src 

4 vmovss “xmmil, (%rsi) Write vi to dst 

5 ret Return v2 in KxmmO 


这 个 例子 中 可 以 看 到 它 使 用 了 vmovaps 指令 把 数据 从 一 个 寄存 静 复 制 到 男 一 个 ,使 用 了 
vmovss 指令 把 数据 从 内 存 复 制 到 XMM 寄存 器 以 及 从 XMM 寄存 器 复制 到 内 存 。 

图 3-47 和 图 3-48 给 出 了 在 浮 点 数 和 整数 数据 类 型 之 间 以 及 不 同 浮 点 格式 之 间 进 行 转 
换 的 指令 集合 。 这 些 都 是 对 单个 数据 值 进行 操作 的 标量 指令 。 图 3-47 中 的 指令 把 一 个 从 
XMM 寄存 器 或 内 存 中 读 出 的 浮 点 值 进 行 转 换 ， 并 将 结果 写 人 一 个 通用 寄存 上 舌 ( 例 如 
srax\sebx 等 ) 。 把 浮 点 值 转换 成 整数 时 ， 指 令 会 执行 截断 (truncation) ， 把 值 回 0 进行 舍 
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人， 这 是 C 和 大 多 数 其 他 编程 语言 的 要 求 。 
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图 3-47” 双 操作 数 浮 点 转换 指令 。 这 些 操作 将 浮 点 数 转换 成 整数 (X: XMM 寄存 器 (例如 sxmm3);， Ra : 
32 位 通用 寄存 器 (例如 gseax); 下 ia : 64 位 通用 寄存 器 (例如 srax) ; Ma : 32 位 内 存 范 围 ; Me, : 













64 位 内 存 范围 ) 


| | Wi | Wi | A | 

图 3-48 三 操作 数 浮 点 转换 指令 。 这 些 操作 将 第 一 个 源 的 数据 类 型 转换 成 目的 的 数据 类 型 。 第 二 个 源 值 
对 结果 的 低位 字 节 没有 影响 (X: XMM 寄存 融 ( 例 如 $xmm3); Mi : 32 位 内 存 范 围 ; Mss : 64 位 
内 存 范围 ) 


图 3-48 中 的 指令 把 整数 转换 成 浮 点 数 。 它 们 使 用 的 是 不 太 和 常见 的 三 操作 数 格 式 ， 有 
两 个 源 和 一 个 目的 。 第 一 个 操作 数 读 目 于 内 存 或 一 个 通用 目的 寄存 器 。 这 里 可 以 忽略 第 二 
个 操作 数 ， 因 为 它 的 值 只 会 影响 结果 的 高 位 字 节 。 而 我 们 的 目标 必须 是 XMM 寄存 筑 。 在 
最 常见 的 使 用 场景 中 ， 第 二 个 源 和 目的 操作 数 都 是 一 样 的 ， 就 像 下 面 这 条 指令 : 


VcVtsi2sdq %rax, %xmmil, %xmml 


这 条 指令 从 寄存 器 srax 读 出 一 个 长 整数 ， 把 它 转换 成 数据 类 型 double， 并 把 结果 存放 进 
XMM 寄存 器 g%xmml 的 低 字 节 中 。 

最 后 ， 要 在 两 种 不 同 的 浮 点 格式 之 间 转 换 ，GCC 的 当前 版 本 生成 的 代码 需要 单独 说 
明 。 假 设 $xmm0 的 低位 4 字 节 保存 着 一 个 单 精 度 值 ， 很 容易 就 想到 用 下 面 这 条 指令 


vcvtss2sd “xmmO0, %hxmmO0, %xmmO 


把 它 转换 成 一 个 双 精 度 值 ， 并 将 结果 存储 在 寄存 器 sxmmg 的 低 8 字 节 。 不 过 我 们 发 现 GCC 
生成 的 代码 如 下 


Conversion from single to double precision 
L vunpcklps ‘hxmmO0, hxmmO0, %xmmO Replicate first vector element 
2 vevtps2pd hxmmO0, hxmmO Convert two vector elements to double 


vunpcklps 指令 通常 用 来 交叉 放置 来 自 两 个 XMM 寄存 器 的 值 ， 把 它们 存储 到 第 三 个 
寄存 器 中 。 也 就 是 说 ， 如 果 一 个 源 寄存 器 的 内 容 为 字 Ls3，s;,，s1，5o]， 男 一 个 源 寄存 器 为 
字 [d3，d;，d!i，dqd。]， 那 么 目的 寄存 器 的 值 会 是 [s,，d!，so，d。]。 在 上 面 的 代码 中 ,我 
们 看 到 三 个 操作 数 使 用 同一 个 寄存 器 ， 所 以 如 果 原 始 寄存 器 的 值 为 Lzs ，z ，zi，xzo]， 那 
么 该 指令 会 将 寄存 器 的 值 更 新 为 值 Lzi ，xi;，xo。，xo]。vcvtps2pd 指令 把 源 XMM 寄存 器 
中 的 两 个 低位 单 精 度 值 扩展 成 目的 XMM 寄存 器 中 的 两 个 双 精 度 值 。 对 前 面 vunpcklps 
指令 的 结果 应 用 这 条 指令 会 得 到 值 Ldzo，czo]j， 这 里 dz 是 将 工 转换 成 双 精 度 后 的 结果 。 
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即 ， 这 两 条 指令 的 最 终 效果 是 将 原始 的 sxmmgo 低位 4 字 节 中 的 单 精度 值 转换 成 双 精 度 值 ， 
再 将 其 两 个 副本 保存 到 %xmm0 中 。 我 们 不 太 清 楚 GCC 为 什么 会 生成 这 样 的 代码 ， 这 样 做 
既 没 有 好 处 ， 也 没有 必要 在 XMM 寄存 器 中 把 这 个 值 复制 一 遍 。 

对 于 把 双 精 度 转 换 为 单 精度 ，GCC 会 产生 类 似 的 代码 : 


Conversion from double to single precision 
1 vmovddup %xmmO , hxmmO Replicate first vector element 
2 vcvtpd2psx hxmmO0, %xmmO Convert two vector elements to single 


假设 这 些 指令 开始 执行 前 寄存 硕 smm0 保存 着 两 个 双 精 度 值 [Lx; ，zoj。 然 后 vmovddup 指 
令 把 它 设置 为 Lz。，xzo]。vcvtpd2psx 指令 把 这 两 个 值 转换 成 单 精度 ， 再 存放 到 该 寄存 器 
的 低位 一 半 中 ， 并 将 高 位 一 半 设 置 为 0， 得 到 结果 [0. 0， 0.0，Zo， xXxojJj( 回 想 一 下 ， 浮 点 值 
0.0 是 由 位 模式 全 0 表示 的 )。 同 样 ， 用 这 种 方式 把 一 种 精度 转换 成 男 一 种 精度 ， 而 不 用 下 
面 的 单条 指令 ， 没 有 明显 直接 的 意义 : 


vecvtsd2ss %xmmO0, hxmmO0O, %xmmO 


下 面 是 一 个 不 同 浮 点 转换 操作 的 例子 ， 考 虑 以 下 C 函数 
double fcvt(int i, float *fp, double *dp, long *1p) 


和. 
float f = *fp; double d = *dp; long 1 = *]lp; 
*]lp = (long) d; 
*fp = (float) i; 
*dp = (double) 1; 
return (double) f; 
} 


以 及 它 对 应 的 x86-64 汇编 代码 
double fcvt(int i, float *fp, double *dp, long *1p) 


i in Kedi, fp in hrsi, dp in Krdx, 1p in Yrcx 


] fevt:: 
2 vmovss (hrsi), hxmmO Get f = *fp 
3 movg (rcx); prax Get 1 = *1p 
4 vevttsd2siqg (rdx) , %r8 Get d = *dp and convert to long 
5 movg hEB, (HEE) Store at 1p 
6 vecvtsi2ss Wedi, %xmml, “xmml Convert i to float 
7 vmovss hxmml, (4rsi) Store at fp 
8 vcevtsi2sdq hrax, %xmmi, %xmml Convert 1 to double 
9 vmovsd %xmml, (%rdx) Store at dp 
The following two instructions convert f to double 
10 vunpcklps hxmmO0, hxmmO, hxmmO 
11 vevtps2pd hxmmO0 ,hxmmO 
12 ret Return f 


fcvt 的 所 有 参数 都 是 通过 通用 寄存 器 传递 的 ， 因 为 它们 既 不 是 整数 也 不 是 指针 。 结 
果 通 过 寄存 硕 %xmmg0 返回 。 如 图 3-45 中 描述 的 ， 这 是 float 或 double 值 指定 的 返回 寄存 
器 。 在 这 段 代 码 中 ， 可 以 看 到 图 3-46 一 图 3-48 中 的 许多 传送 和 转换 指令 ， 还 可 以 看 到 
GCC 将 单 精 度 转 换 为 双 精 度 的 方法 。 
攻 沁 练习 题 3. 50 ”对 于 下 面 的 C 代 码 ， 表 达 式 vall~val4 分 别 对 应 程序 值 i、f、d 和 1; 


double fcvt2(int *ip, float *fp, double *dp, long 1) 
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{ 
int. i = *ip; float f = *fp; double d = *dp; 
*ip = (int) vall; 
*fp = (float) val2; 
*dp = (double) val3; 
return (double) vald4; 
} 


根据 该 函数 如 下 的 x86-64 人 代码， 确定 这 个 映射 关系 ; 
double fcvt2(int *ip, float *fp, double *dp, long 1) 
ip in rdi, fp in hrsi, dp in Wrdx, 1 ID Krcex 


Result returned in Xxmm0 


1 Lovt2. 

2 movl (Wrdi), Wheax 

3 vmovss (%rsi), %xmmO 

4 vecvttsd2si (%rdx) , %r8d 

5 movl %r8d, (%rdi) 

6 vcvtsi2ss Veax, “xmml, %xmml 
7 vmovss “xmml, (%rsi) 

8 Vcvtsi2sdq Wrcx, Wxmml, Wxmml 
9 vmovsd “xmmil, (%rdx) 

10 vunpcklps %xmmO0, WhxmmO, %xmmO 
11 vecvtps2pd %xmmO ， %xmmO 

12 ret 


记 s 练习 题 3.51 下 面 的 C 函数 将 类 型 为 src 七 的 参数 转换 为 类 型 为 dst 七 的 返回 值 ， 
这 里 两 种 数据 类 型 都 用 typedef 定义 : 
dest_t cvt(src.t x) 
{ 


dest_t y = (dest_t) x; 
return y; 


在 x86-64 上 执行 这 段 代 码 ， 假 设 参 数 x 在 $xmm0 中 ， 或 者 在 寄存 器 %$rdi 的 某 个 
适当 的 命名 部 分 中 ( 即 %rdi 或 % edi)。 用 一 条 或 两 条 指令 来 完成 类 型 转换 ， 并 把 结果 
值 复 制 到 寄存 器 %rax 的 某 个 适当 命名 部 分 中 (整数 结果 )， 或 sxmm0 中 ( 浮 点 结果 )。 
给 出 这 条 或 这 些 指 令 ， 包 括 源 和 目的 寄存 器 。 


7 指令 

oubie | int | | 
aouple | Float | | 
ong | foat | | 
oa li | | 


3. 11.2 过 程 中 的 浮 点 代码 


在 x86-64 中 ，XMM 寄存 器 用 来 向 函数 传递 浮 点 参数 ， 以 及 从 函数 返回 浮 点 值 。 如 图 
3-45 所 示 ， 可 以 看 到 如 下 规则 : 
e XMM 寄存 器 sxmm0 一 %xmm7 最 多 可 以 传递 8 个 浮 点 参数 。 按 照 参 数列 出 的 顺序 使 用 
这 些 寄 存 器 。 可 以 通过 栈 传 递 额外 的 浮 点 参数 。 
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e 函数 使 用 寄存 器 %xmm0 来 返回 浮 点 值 。 
e 所 有 的 XMM 寄存 需 都 是 调用 者 保存 的 。 被 调用 者 可 以 不 用 保存 就 覆盖 这 些 寄存 需 
中 枉 是 一 个 。 
当 孙 数 包 仿 指针、 整数 和 浮 点 数 混合 的 参数 时 ， 指 针 和 整数 通过 通用 寄存 龙 传 递 ， 而 
浮 点 值 通过 XMM 寄存 顺 传 递 。 也 就 是 说 ， 参 数 到 寄存 器 的 映射 取决 于 它们 的 类 型 和 排列 
的 顺序 。 下 面 是 一 些 例子 : 


double fi(int x, double y, long Z) ; 


这 个 函数 会 把 x 存放 在 $ edi 中 ，y 放 在 $xmm0 中 ， 而 z 放 在 %rsi 中 。 
double f2(double y, int x, long Z) ; 


这 个 函数 的 寄存 胡 分 配 与 函数 fl 相同 。 


double fi(float x, double *y, long *2Z); 


这 个 函数 会 将 x 放 在 $xmm0 中 ，y 放 在 $rdi 中 ， 而 z 放 在 %rsi 中 。 
上 ES 汉 练习 题 3. 52 ”对 于 下 面 每 个 函数 声明 ， 确 定 参 数 的 寄存 器 分 配 : 
A. double gli(double a, long b, float c, int d); 
B. double g2(int a, double *b, float *c, long d); 
C. double g3(double *a, double b, int c, float d); 
D. double g4(float a, int *b, float c, double d); 


3. 11.3 浮 扣 运算 操作 

图 3-49 描述 了 一 组 执行 算术 运算 的 标量 AVX2 浮 点 指令 。 每 条 指令 有 一 个 (Si ) 或 两 
个 (S;，S; ) 源 操作 数 ， 和 一 个 目的 操作 数 D。 第 一 个 源 操作 数 S, 可 以 是 一 个 XMM 寄存 天 
或 一 个 内 存 位 置 。 第 二 个 源 操作 数 和 目的 操作 数 都 必须 是 XMM 寄存 器 。 每 个 操作 都 有 一 
条 针对 单 精度 的 指令 和 一 条 针对 双 精 度 的 指令 。 结 果 存 放 在 目的 寄存 颖 中 。 


单 精度 双 精 度 效果 描述 
vaddss vaddsd D<-S; +51 浮 点 数 加 
vsubss vsubsd Da-Sz= 1 浮 点 数 减 
vmulss vmulsd D<—S2 XS 浮 点 数 乘 
vdivss vdivsd D<*—S;,/SI 浮 点 数 除 
vmaxss vmaxsd D<-max(S;, Si) 浮 点 数 最 大 值 
vminss vminsd D<-min(S;, S1) 浮 点 数 最 小 值 
sqrtss sqrtsd D<— /Si 浮 点 数 平方 根 


名 349 标量 浮 点 算术 运算 。 这 些 指令 有 一 个 或 两 个 源 操作 数 和 一 个 目的 操作 数 
来 看 一 个 例 于 ， 考 虑 下 面 的 浮 点 因数 : 


double funct(double a, float x, double b, int i) 
{ 
return a*x — D/I 


} 
x86-64 代码 如 下 : 
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double funct(double a, float x, double b, int i) 


a in Kxmm0, x in Kxmml, b in Kxmm2, i in Wedi 


1 funct: 
The following two instructions convert x to double 
2 vunpcklps bxmml1, hxmml, hxmml 
3 vecvtps2pd xmml, hxmml 
4 vmulsd %xmmO0, %hxmml, %xmmO Multiply a by x 
5 vevtsi2sd Wedi, nxmml, “xmmi Convert i to double 
6 vdivsd Whxmmi, %xmm2, %xmm2 Compute b/i 
7 vsubsd “xmm2, %xmmO0O, %xmmO Subtract from a*x 
8 ret Return 


三 个 浮 点 参数 a、x 和 b 通 过 XMM 寄存 器 %xmm0 一 %xmm2 传递 ， 而 整数 参数 通过 寄存 
sedi 传递 。 标 准 的 双 指 令 序列 用 以 将 参数 x 转 换 为 双 精 度 类 型 (第 2 一 3 行 )。 另 一 条 转 

换 指令 用 来 将 参数 i 转换 为 双 精 度 类 型 (第 5 行 )。 该 函数 的 值 通过 寄存 器 %xmm0 返回 。 
宇 汉 练习 题 3. 53 ”对 于 下 面 的 C 函数 ，4 个 参数 的 类 型 由 typedef 定义 : 

double functi(argl_t p, arg2.t q, arg3.t r, arg4 t s) 

{ 

return p/(g+r) - s; 
} 
编译 时 ，GCC 产生 如 下 代码 : 


double functi(argl_t p, arg2_t g, arg3_t r, arg4_t s) 


1 functl : 

2 Vcvtsi2SSq hrsi, %xmm2, hxmm2 
3 vaddss “xmm0, hxmm2, %xmmO 

4 vcvtsi2ss Wedi, Wxmm2, hxmm2 
5 vdivss “xmm0, %xmm2, hxmmO 

6 vunpcklps xmmO0, %xmmO, hxmmO 
7 vevtps2pd hxmmO0 ,hxmmO 

8 vsubsd “xmmlil, %xmm0, %xmmO 

9 ret 


确定 4 个 参数 类 型 可 能 的 组 合 ( 答 案 可 能 不 止 一 种 )。 
居 马 练习 题 3. 54 函数 funct2 具有 如 下 原型 : 


double funct2(double w, int x, float y, long Z) ; 
GCC 为 该 函数 产生 如 下 代码 ; 


double funct2(double w, int xX, float y, long 2Z) 


W in %xmmO0, XxX in Wedi, y in %xmml, Zz in %rsi 


1 funct2: 

2 vcvtsi2ss Wedi, %xmm2, %xmm2 
3 vmulss Wxmmlil, %xmm2, “hxmml 

4 vunpcklps Pxmmi, xmmi, %xmmi 
5 vecvtps2pd %xmmi1 , %xmm2 

6 Vcvtsi2sdq Wrsi, %xmml, %xmm1 
7 vdivsd “xmml, %xmmO0O, %xmmO 

8 vsubsd “xmmO0, %xmm2, %xmmO 

9 ret 


写 出 funct2 的 C 语言 版 本 。 
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3. 11.4 定义 和 使 用 浮 点 常数 


和 整数 运算 操作 不 同 ，AVX 浮 点 操作 不 能 以 立即 数值 作为 操作 数 。 相 反 ， 编 译 器 必 
须 为 所 有 的 常量 值 分 配 和 初始 化 存储 空间 。 然 后 代码 在 把 这 些 值 从 内 存 读 入 。 下 面 从 摄氏 
度 到 华氏 度 转换 的 函数 就 说 明了 这 个 问题 : 

double cel2fahr(double temp) 

{ 


return 1.8 * temp + 32.0; 
} 


相应 的 x86-64 汇编 代码 部 分 如 下 : 
double cel2fahr(double temp) 
temp in WxmmO 


cel2fahr: 


1 

2 vmulsd .LC2(%rip), hxmmO, %hxmmO Multiply by 1.8 

3 vaddsd .LC3(%rip), %xmm0, %xmmO Add 32.0 

4 ret 

5 .LC2: 

6 .long 3435973837 Low-order 4 bytes of 1.8 

7 .long 1073532108 High-order 4 bytes of 1.8 
8 .LC3: 

9 long 0 Low-order 4 bytes of 32.0 
10 :long 1077936128 High-order 4 bytes of 32.0 


可 以 看 到 函数 从 标号 为 .LC2 的 内 存 位 置 读 出 值 1.8， 从 标号 为 .LC3 的 位 置 读 入 值 32. 0。 
观察 这 些 标号 对 应 的 值 ， 可 以 看 出 每 一 个 都 是 通过 一 对 .long 声明 和 十 进 制 表示 的 值 指 定 
的 。 该 怎样 把 这 些 数 解释 为 浮 点 值 呢 ?看 看 标号 为 .LC2 的 声明 ， 有 两 个 值 : 3435973837 
(0xcccccccd) 和 1073532108(0x3ffccccc)。 因 为 机 器 采用 的 是 小 端 法 字 节 顺序 ， 第 一 个 
值 给 出 的 是 低位 4 字 节 ， 第 二 个 给 出 的 是 高 位 4 字 节 。 从 高 位 字 节 ， 可 以 抽取 指数 字段 为 
0x3ff(1023)， 减 去 偏 移 1023 得 到 指数 0。 将 两 个 值 的 小 数位 连接 起 来 ， 得 到 小 数字 段 
0xccccccccccccd， 二 进 制 小 数 表示 为 0.8， 加 上 隐 含 的 1 得 到 1. 8。 

证 豆 练习 题 3. 55 解释 标号 为 .LC3 处 声明 的 数字 是 如 何 对 数字 32. 0 编码 的 。 


3. 11. 5 在 浮 点 代码 中 使 用 位 级 操作 


有 时 ， 我 们 会 发 现 GCC 生成 的 代码 会 在 XMM 寄存 器 上 执行 位 级 操作 ， 得 到 有 用 的 
浮 点 结果 。 图 3-50 展示 了 一 些 相 关 的 指令 ， 类 似 于 它们 在 通用 寄存 器 上 对 应 的 操作 。 这 
些 操作 都 作用 于 封装 好 的 数据 ， 即 它们 更 新 整个 目的 XMM 寄存 器 ， 对 两 个 源 寄存 器 的 所 
有 位 都 实施 指定 的 位 级 操作 。 和 前 面 一 样 ， 我 们 只 对 标量 数据 感 兴趣 ， 只 想 了 解 这 些 指令 
对 目的 寄存 器 的 低 4 或 8 字 节 的 影响 。 从 下 面 的 例子 中 可 以 看 出 ， 运 用 这 些 操作 通 和 可 以 
简单 方便 地 操作 浮 点 数 。 





图 3-50 ”对 封装 数据 的 位 级 操作 (这 些 指 令 对 一 个 XMM 寄存 器 中 的 所 有 128 位 进行 布尔 操作 ) 
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唐 强 练习 题 3. 56 ”考虑 下 面 的 C 函数 ， 其 中 EXPR 是 用 # define 定义 的 宏 : 


double simplefun(double x) { 
return EXPR(x); 
} 


下 面 ， 我 们 给 出 了 为 不 同 的 EXPR 定义 生成 的 AVX2 代码 ， 其 中 ，x 的 值 保存 在 xmm0 
中 。 这 些 代 码 都 对 应 于 某 些 对 浮 点 数值 有 用 的 操作 。 确 定 这 些 操作 都 是 什么 。 要 理解 
从 内 存 中 取出 的 常数 字 的 位 模式 才能 找 出 答案 。 


并 必 vmovsd .LC1(%rip), %hxmml 
2 vandpd %xmmi, %xmmO0, %xmmO 
3 dA 
4 .long 4294967295 
5 .long 2147483647 
6 .Jong 0 
7 .long 0 
B. 1 Vxorpd ‘hxmmO0, %hxmmO, %hxmmO 


vmovsd .LC2(%rip), hxmml 


1 

2 vxorpd %xmmlil, %xmmO0, %hxmmO 
3 :LC2: 

4 :long 0 

5 .long -2147483648 

6 .long 0 

7 .long 0 


3. 11.6 浮 点 比较 操作 
AVX2 提供 了 两 条 用 于 比较 浮 点 数值 的 指令 : 





这 些 指 令 类 似 于 CMP 指令 (参见 3.6 节 )， 它 们 都 比较 操作 数 S, 和 S; (但 是 顺序 可 能 
与 预计 的 相反 )， 并 且 设 置 条 件 码 指示 它们 的 相对 值 。 与 cmpqg 一样 ,它们 遵循 以 相反 顺序 
列 出 操作 数 的 ATT 格式 惯例 。 参 数 3 必须 在 XMM 寄存 器 中 ， 而 S 可 以 在 XMM 寄存 器 
中 ， 也 可 以 在 内 存 中 。 

浮 点 比较 指令 会 设置 三 个 条 件 码 : 零 标志 位 ZF、 进 位 标志 位 CF 和 奇偶 标志 位 PF。 
3. 6. 1 节 中 我 们 没有 讲 奇偶 标志 位 ， 因 为 它 在 GCC 产生 的 x86 代码 中 不 太 和 常见 。 对 于 整数 
操作 ， 当 最 近 的 一 次 算术 或 逻辑 运算 产生 的 值 的 最 低位 字 节 是 偶 校 验 的 ( 即 这 个 字 节 中 有 
偶数 个 1)， 那 么 就 会 设置 这 个 标志 位 。 不 过 对 于 浮 点 比较 ， 当 两 个 操作 数 中 任 一 个 是 
NaN 时 ， 会 设置 该 位 。 根 据 惯例 ，C 语言 中 如 果 有 个 参数 为 NaN， 就 认为 比较 失败 了 ， 
这 个 标志 位 就 被 用 来 发 现 这 样 的 条 件 。 例 如 ， 当 x 为 NaN 时 ， 比 较 x 一 x 都 会 得 到 0。 

条 件 码 的 设置 条 件 如 下 : 
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当 任 一 操作 数 为 NaN 时 ， 就 会 出 现 无 序 的 情况 。 可 以 通过 奇偶 标志 位 发 现 这 种 情况 。 
通常 jpGump on parity) 指 令 是 条 件 跳 转 ， 条 件 就 是 浮 点 比较 得 到 一 个 无 序 的 结果 。 除 了 这 种 
情况 以 外 ， 进 位 和 和 零 标 志 位 的 值 都 和 对 应 的 无 符号 比较 一 样 : 当 两 个 操作 数 相等 时 ， 设 置 ZF; 
当 S$<S 时 ， 设 置 CE。 像 ja 和 jb 这 样 的 指令 可 以 根据 标志 位 的 各 种 组 合 进 行 条 件 跳 转 。 

来 看 一 个 浮 点 比较 的 例子 ， 图 3-51a 中 的 C 函数 会 根据 参数 x 与 0.0 的 相对 关系 进行 
类 ， 返 回 一 个 枚 举 类 型 作为 结果 。C 中 的 枚 举 类 型 是 编码 为 整数 的 ， 所 以 函数 可 能 的 值 为 : 
0(NEG)，1(ZERO)，2(POS) 和 3(OTHER) 。 当 x 的 值 为 NaN 时 ， 会 出 现 最 后 一 种 结果 。 


typedef enum {NEG, ZERO, POS, OTHER} range_t; 


range_t find_range(float x) 
T 
int result; 
if (x < 0) 
result = NEG; 
else if (x == 0) 
result ZERO ; 
else if (x > 0) 
result POS; 
else 
result = OTHER; 
return result; 





a ) C 代 码 


range_t find_range(float x) 
X ID %xmmO 
find_range: 
Vxorps hxmmil, %xmmi, %xmmi Set Y%xmpl = 0 
Vvucomiss hxmmO, %xmml Compare O0:x 
ja .LD If >, goto neg 
vucomiss hxmml1, %hxmmO Compare x:0 
jp .L8 If NaN, goto posornan 
movl $1, Weax result = ZERO 
je .L3 If =, goto done 
.Le8: posornan: 
vucomiss .LCO(%rip) , %xmmO Compare x:0 
setbe  %al Set result = NaN ?1:0 
movzbl %al, %heax Zero-extend 
addl $2, heax result += 2 (POS for > 0, OTHER for NaN) 
ret Return 
‘Lb: neg: 
movl $0, heax result = NEG 
Le: done: 
rep; ret Return 





b ) 产生 的 汇编 代码 
图 3-51 浮 点 代码 中 的 条 件 分 支 说 明 
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GCC 为 find range 生成 图 3-51b 中 的 代码 。 这 段 代码 的 效率 不 是 很 高 : 它 比 较 了 x 
和 0.0 三 次 ， 即 使 一 次 比较 就 能 获得 所 需 的 信息 。 它 还 生成 了 浮 点 常数 两 次 : 一 次 使 用 
vxorps， 男 一 次 从 内 存 读 出 这 个 值 。 让 我 们 追踪 这 个 函数 ， 看 看 四 种 可 能 的 比较 结果 : 

x 二 0.0 第 4 行 的 ja 分 支 指令 会 选择 跳 转 ， 跳 转 到 结尾 ， 返 回 值 为 0。 

x 一 0.0 ja( 第 4 行 ) 和 jp( 第 6 行 ) 两 个 分 支 语句 都 会 选择 不 跳 转 ， 但 是 je 分 支 ( 第 8 
行 ) 会 选择 跳 转 ， 以 % eax 等 于 1 返回。 

x 0.0 这 三 个 分 支 都 不 会 选择 跳 转 。setbe( 第 11 行 ) 会 得 到 0，addl 指令 (第 13 
行 ) 会 把 它 增 加 ， 得 到 返回 值 2。 

x 二 NaN jp 分 支 ( 第 6 行 ) 会 选择 跳 转 。 第 三 个 vucomiss 指令 (第 10 行 ) 会 设置 进 
位 和 和 零 标 志 位 ， 因 此 setbe 指令 (第 11 行 ) 和 后 面 的 指令 会 把 % eax 设置 为 1。addl 指令 
(第 13 行 ) 会 把 它 增加 ， 得 到 返回 值 3。 

家 庭 作 业 3. 73 和 3. 74 中 ， 你 需要 试 着 手动 生成 find range 更 高 效 的 实现 。 
家 强 练习 题 3. 57 函数 funct3 有 如 下 原型 : 


double funct3(int *ap, double b, long c，float *dp); 
对 于 此 函数 ，GCC 产生 如 下 代码 : 


double funct3(int *ap, double b, long ¢, float *dp) 
ap in Krdi, b in Kxmm0, cc in %rsi, dp in ¥rdx 
funct3: 


1 

2 vmovss (%rdx), %xmml 

3 vcevtsi2sd (Xrdi), %xmm2, %xmm2 
4 vucomisd %xmm2, %xmmO 

5 jbe 18 

6 vecvtsi2ssg hrsi, hxmmO, hxmmO 
vmulss Wxmmil, %xmmO0, %xmml 

8 vunpcklps hxmmi1, hxmmi, %xmm1 
图 vecvtps2pd hxmm1 ， %xmmO 

10 ret 

11 LB: 

12 vaddss %xmmi, %xmmli1, %xmml 

13 vevtsi2ssg %rsi, %xmmO0, %xmmO 
14 vaddss %xmml, %xmm0O, %xmmO 
15 vunpcklps %xmmO0, %xmmO0, %xmmO 
16 vevtps2pd hxmmO, hxmmO 
17 ret 


写 出 funct3 的 C 上 版本。 


3. 11.7 对 浮 点 代码 的 观察 结论 


我 们 可 以 看 到 ， 用 AVX2 为 浮 点 数 上 的 操作 产生 的 机 器 代码 风格 类 似 于 为 整数 上 的 操 
作 产 生 的 代码 风格 。 它 们 都 使 用 一 组 寄存 器 来 保存 和 操作 数据 值 ， 也 都 使 用 这 些 寄存 器 来 
传递 函数 参数 。 
当然 ， 处 理 不 同 的 数据 类 型 以 及 对 包含 混合 数据 类 型 的 表达 式 求 值 的 规则 有 许多 复杂 
之 处 ， 同 时 ，AVX2 代码 包括 许多 比 只 执行 整数 运算 的 函数 更 加 不 同 的 指令 和 格式 。 
AVX2 还 有 能 力 在 封装 好 的 数据 上 执行 并 行 操作 ， 使 计算 执行 得 更 快 。 编 译 器 开发 者 
正 致力 于 自动 化 从 标量 代码 到 并 行 代码 的 转换 ， 但 是 目前 通过 并 行 化 获得 更 高 性 能 的 最 可 
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靠 的 方法 是 使 用 GCC 支持 的 、 操 纵向 量 数据 的 C 语言 扩展 。 参 见 原 书 546 页 的 网 络 旁 注 
OPT: SIMD， 看 看 可 以 怎么 做 到 这 样 。 


4 


在 本 章 中 ,我们 帘 视 了 C 语言 提供 的 抽象 层 下 面 的 东西 ， 以 了 解 机 器 级 编程 。 通 过 让 编译 器 产生 机 
器 级 程序 的 汇编 代码 表示 ， 我 们 了 解 了 编译 器 和 它 的 优化 能 力 ， 以 及 机 器 、 数 据 类 型 和 指令 集 。 在 第 5 
章 ， 我 们 会 看 到 ， 当 编写 能 有 效 映 射 到 机 器 上 的 程序 时 ， 了 解 编译 器 的 特性 会 有 所 帮助 。 我 们 还 更 完整 
地 了 解 了 程序 如 何 将 数据 存储 在 不 同 的 内 存 区 域 中 。 在 第 12 章 会 看 到 许多 这 样 的 例子 ， 应 用 程序 员 需 要 
知道 一 个 程序 变量 是 在 运行 时 栈 中 ， 是 在 某 个 动态 分 配 的 数据 结构 中 ， 还 是 全 局 程序 数据 的 一 部 分 。 理 
解 程序 如 何 映射 到 机 器 上 ， 会 让 理解 这 些 存 储 类 型 之 间 的 区 别 容 易 一 些 。 

机 器 级 程序 和 它们 的 汇编 代码 表示 ， 与 C 程序 的 差别 很 大 。 各 种 数据 类 型 之 间 的 差别 很 小 。 程 序 是 
以 指令 序列 来 表示 的 ， 每 条 指令 都 完成 一 个 单独 的 操作 。 部 分 程序 状态 ， 如 寄存 器 和 运行 时 栈 ， 对 程序 
员 来 说 是 直接 可 见 的 。 本 书 仅 提供 了 低级 操作 来 支持 数据 处 理 和 程序 控制 。 编 译 器 必须 使 用 多 条 指令 来 
产生 和 操作 各 种 数据 结构 ， 以 及 实现 像 条 件 、 循 环 和 过 程 这 样 的 控制 结构 。 我 们 讲述 了 C 语言 和 如 何 编 
译 它 的 许多 不 同方 面 。 我们 看 到 C 语言 中 缺乏 边界 检查 ， 使 得 许多 程序 容易 出 现 缓冲 区 溢出 。 虽 然 最 近 
的 运行 时 系统 提供 了 安全 保护 ， 而 且 编 译 器 帮助 使 得 程序 更 安全 ， 但 是 这 已 经 使 许多 系统 容易 受到 恶意 
人 侵 者 的 攻击 。 

我 们 只 分 析 了 C 到 x86-64 的 映射 ， 但 是 大 多 数 内 容 对 其 他 语言 和 机 器 组 合 来 说 也 是 类 似 的 。 例 如 ， 
编译 C++ 与 编译 C 就 非常 相似 。 实 际 上 ，C++ 的 早期 实现 就 只 是 简单 地 执行 了 从 C++ 到 C 的 源 到 源 的 
转换 ， 并 对 结果 运行 C 编译 器 ， 产 生 目 标 代 码 。C++ 的 对 象 用 结构 来 表示 ， 类 似 于 C 的 struct。C++ 
的 方法 是 用 指向 实现 方法 的 代码 的 指针 来 表示 的 。 相 比 而 言 ，Java 的 实现 方式 完全 不 同 。Java 的 目标 代 
码 是 一 种 特殊 的 二 进 制 表示 ， 称 为 Java 字 节 代码 。 这 种 代码 可 以 看 成 是 虚拟 机 的 机 器 级 程序 。 正 如 它 的 
名 字 上 暗示 的 那样 ， 这 种 机 器 并 不 是 直接 用 硬件 实现 的 ， 而 是 用 软件 解释 器 处 理 字 节 代码 ， 模 拟 虚 拟 机 的 
行为 。 另 外 ， 有 一 种 称 为 及 时 编译 (justrinrtime compilation) 的 方法 ,动态 地 将 字 节 代码 序列 翻译 成 机 器 
指令 。 当 代码 要 执行 多 次 时 (例如 在 循环 中 )， 这 种 方法 执行 起 来 更 快 。 用 字 节 代码 作为 程序 的 低级 表示 ， 
优点 是 相同 的 代码 可 以 在 许多 不 同 的 机 器 上 执行 ， 而 在 本 章 谈 到 的 机 器 代码 只 能 在 x86-64 机 器 上 运行 。 


参考 文献 说 明 


Intel 和 AMD 提供 了 关于 他 们 处 理 器 的 大 量 文档 。 包 括 从 汇编 语言 程序 员 角 度 来 看 硬件 的 概貌 [2， 
50]， 还 包括 每 条 指令 的 详细 参考 [3，51]。 读 指令 描述 很 复杂 ， 因 为 1) 所 有 的 文档 都 基于 Intel 汇编 代码 
格式 ，2) 由 于 不 同 的 寻 址 和 执行 模式 ， 每 条 指令 都 有 多 个 变种 ，3) 没 有 说 明 性 示例 。 不 过 这 些 文档 仍然 
是 关于 每 条 指令 行为 的 权威 参考 。 

组 织 x86-64. org 负责 定义 运行 在 Linux 系统 上 的 x86-64 代码 的 应 用 二 进 制 接口 (Applicatioin Binary 
Interface，ABI)L77j。 这 个 接口 描述 了 一 些 细节 ， 包 括 过 程 链接 、 二 进 制 代码 文件 和 大 量 的 为 了 让 机 器 
代码 程序 正确 运行 所 需要 的 其 他 特性 。 

正如 我 们 讨论 过 的 那样 ，GCC 使 用 的 ATT 格式 与 Intel 文档 中 使 用 的 Intel 格式 和 其 他 编译 器 (包括 
Microsoft 编译 器 ) 使 用 的 格式 都 很 不 相同 。 

Muchnick 的 关于 编译 器 设计 的 书 [80j] 被 认为 是 关于 代码 优化 技术 最 全 面 的 参考 书 。 它 涵盖 了 许多 我 
们 在 此 讨论 过 的 技术 ， 例 如 寄存 器 使 用 规则 。 

已 经 有 很 多 文章 是 关于 使 用 缓冲 区 溢出 通过 因特网 来 攻击 系统 的 。Spafford 出 版 了 关于 1988 年 因 特 
网 蠕虫 的 详细 分 析 L105]， 而 帮助 阻止 它 传播 的 MIT 团队 的 成 员 也 出 版 了 一 些 论著 [35]。 从 那 以 后 ， 大 
量 的 论文 和 项 目 提 出 了 各 种 创建 和 阻止 缓冲 区 溢出 攻击 的 方法 。Seacord 的 书 [97] 提 供 了 关于 缓冲 区 溢出 
和 其 他 一 些 对 C 编译 器 产生 的 代码 进行 攻击 的 丰富 信息 。 
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long decode2(long x, long y, long 2z); 


GCC 产生 如 下 汇编 代码 : 
] decode2: 

2 subq Wrdx, %rsi 
3 imulq  %rsi, %rdi 
4 movq Wrsi, %rax 
5 salq $63, %rax 
6 sarq $63, %rax 
7 Xorq %rdi, %rax 
8 ret 


参数 x、y 和 z 通过 寄存 器 S$rdi、%rsi 和 srdx 传递 。 代 码 将 返回 值 存放 在 寄存 器 S$rax 中 。 
写 出 等 价 于 上 述 汇 编 代码 的 decode2 的 C 代码 。 
下 面 的 代码 计算 两 个 64 位 有 符号 值 x 和 y 的 128 位 乘积 ， 并 将 结果 存储 在 内 存 中 : 


i 
2 
3 
4 
5 


typedef _ 


_int128 int128_t; 


void store_prod(int128_t *dest, int64 t x, int64_t y) { 
*dest = x * (int128_t) y; 


} 
GCC 产 出 下 面 的 汇编 代码 来 实现 计算 : 
1 store_prod: 
2 movVq %TdX ， hrax 
3 cqto 
4 moVq %rsi, %rcx 
5 sarqg $63, %rcx 
6 imulq %rax, %rcx 
7 imulq %rsi, %rdx 
8 addq MXFdX， %rcx 
9 mulg Wrsi 
10 addq Wrcx, Wrdx 
11 movq  %rax, (%rdi) 
12 movq %rdx, 8(%rdi) 
13 ret 


oh 办 ii Ni 一 


= 一 es ep 
| 


为 了 满足 在 64 位 机 器 上 实现 128 位 运算 所 需 的 多 精度 计算 ， 这 段 代码 用 了 三 个 乘法 。 描 述 用 
来 计算 乘积 的 算法 ， 对 汇编 代码 加 注释 ， 说 明 它 是 如 何 实现 你 的 算法 的 。 提 示 : 在 把 参数 工 和 》 
扩展 到 128 位 时 ， 它 们 可 以 重 写 为 一 264。 忆 十 立 和 yy 一 244。 水 十 六 ， 这 里 忌 ， 埃 ， 立 和 郊 都 是 
64 位 值 。 类 似 地 ，128 位 的 乘积 可 以 写成 p= 二 2”，…p, 十 p:， 这 里 ps 和 pp 是 64 位 值 。 请 解释 这 段 
代码 是 如 何 用 xz;，z:，y, 和 yy 来 计算 pi 和 pp, 的 。 

考虑 下 面 的 汇编 代码 : 


long loop(long xX, int Hn) 


xX in rrdi, I in Yesi 


loop: 
movl 
movl 
moV] 
jmp 

| se 
movg 
andq 
orqg 
salg 

sb 
testq 
jne 
rep; 


Wesi, %ecx 


$1, hedx 
$0, heax 
sl 

“rdi, %r8 
%rdx, %r8 
%r8, hrax 
%cl, %rdx 
%rdx, hrdx 
人 


ret 
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以 上 代码 是 编译 以 下 整体 形式 的 C 代码 产生 的 ， 
1 long loop(long x, int n) 
r | 
3 long result = ; 
4 long mask; 
5 for (mask = ; mask ; mask = 入 
6 result |= ; 
7 . 
8 return result; 
9 } 


你 的 任务 是 填写 这 个 C 代码 中 缺失 的 部 分 ， 得 到 一 个 程序 等 价 于 产生 的 汇编 代码 。 回 想 一 下 ， 
这 个 函数 的 结果 是 在 寄存 器 %rax 中 返回 的 。 你 会 发 现 以 下 工作 很 有 帮助 : 检查 循环 之 前 、 之 中 和 
之 后 的 汇编 代码 ， 形 成 一 个 寄存 器 和 程序 变量 之 间 一 致 的 映射 。 
A. 哪个 寄存 器 保存 着 程序 值 x、n、result 和 mask? 
B.，result 和 mask 的 初始 值 是 什么 ? 
C. mask 的 测试 条 件 是 什么 ? 
D. mask 是 如 何 被 修改 的 ? 
E. result 是 如 何 被 修改 的 
F. 填写 这 段 C 代码 中 所 有 缺失 的 部 分 。 
在 3. 6.6 节 ， 我 们 查看 了 下 面 的 代码 ， 作 为 使 用 条 件数 据 传送 的 一 种 选择 ， 


long cread(long *xp) + 
return (xp ? *xp : 0); 


+ 


我 们 给 出 了 使 用 条 件 传送 指令 的 一 个 尝试 实现 ,但 是 认为 它 是 不 合法 的 ， 因 为 它 试图 从 一 个 空地 
址 读数 据 。 

写 一 个 C 函数 cread alt， 它 与 cread 有 一 样 的 行为 ， 除 了 它 可 以 被 编译 成 使 用 条 件数 据 传 
送 。 当 编译 时 ， 产 生 的 代码 应 该 使 用 条 件 传送 指令 而 不 是 某 种 跳 转 指令 。 
下 面 的 代码 给 出 了 一 个 开关 语句 中 根据 枚 举 类 型 值 进行 分 支 选择 的 例子 。 回 忆 一 下 ，C 语言 中 榴 
举 类 型 只 是 一 种 引 人 和 人 一 组 与 整数 值 相 对 应 的 名 字 的 方法 。 默 认 情 况 下 ， 值 是 从 0 向 上 依次 赋 给 名 
字 的 。 在 我 们 的 代码 中 ， 省 略 了 与 各 种 情况 标号 相对 应 的 动作 。 


/* Enumerated type creates set of constants numbered 0 and upward */ 
typedef enum {MODE_A, MODE_B, MODE_C, MODE_D, MODE_E} mode_t; 


long switch3(long *pi, long *p2, mode_t action) 


long result = 0; 
switch(action) { 
case MODE_A: 


© NO WW BB WwW NN 一 


\D 


case MODE_B: 


-i Am 
hu 一 OO 


case MODE_C: 


一 
LN 


case MODE_D: 


一 一 
tn 二 


16 case MODE_E: 


ee 
”JU 


default: 


eB 2 
器 % 


} 


return result; 


NN NN 
= 


Ny 
| 
v 
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产生 的 实现 各 个 动作 的 汇编 代码 部 分 如 图 3-52 所 示 。 注 释 指 明了 参数 人 位置， 寄存 器 值 ， 以 及 
各 个 跳 转 目的 的 情况 标号 。 


pli in hzraii p2 in Yrsi; action in Wedx 
.L8: MODE_E 
mov] $27, Weax 
ret 
次 人 < 
movg (%rsi), %rax 
movqg (Xrdi), %rdx 
movqg %rdx, (%rsi) 
ret 
LL5: 


如 3 NN 


(%rdi), %rax 


(%rsi), %rax 
hrax, (%rdi) 


$59, (%rdi) 
(%rsi), %rax 


(Wrsi), %rax 
%rax, (%rdi) 
$27, Weax 


default 
$12, %eax 





图 3-52 ”家庭 作业 3. 62 的 汇编 代码 。 这 段 代码 实现 了 switch 语句 的 各 个 分 支 


填写 C 代码 中 缺失 的 部 分 。 代 码 包 括 落 人 其 他 情况 的 情况 ， 试 着 重建 这 个 情况 。 
* 3.63 这 个 程序 给 你 一 个 机 会 ， 从 反 汇 编 机 器 代码 逆向 工程 一 个 switch 语句。 在 下 面 这 个 过 程 中 ， 去 掉 
了 switch 语句 的 主体 : 


long switch_prob(long x, long n) { 
long result = XxX; 
switch(n) { 
/* Fill in code here */ 


} 


1 
2 
3 
4 
5 
6 
7 return result,; 
8 


} 


图 3-53 给 出 了 这 个 过 程 的 反 汇 编 机 器 代码 。 

跳 转 表 驻 留 在 内 存 的 不 同 区 域 中 。 可 以 从 第 5 行 的 间接 跳 转 看 出 来 ， 跳 转 表 的 起 始 地 址 为 0x 
4006f8。 用 调试 器 GDB， 我 们 可 以 用 命令 x/6gx 0x4006f8 来 检查 组 成 跳 转 表 的 6 个 8 字 节 字 的 内 
存 。GDB 打印 出 下 面 的 内 容 : 


(gdb) x/6gx Ox4006f8 

Ox4006f8: 0x00000000004005at 0x00000000004005c3 
Ox400708: 0x00000000004005al 0x00000000004005aa 
Ox400718: 0Ox00000000004005b2 0x00000000004005bf 


用 C 代码 填写 开关 语句 的 主体 ， 使 它 的 行为 与 机 器 代码 一 致 。 
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long switch. prob(long xX, long n) 
三 AI 1 i Wi 
0000000000400590 <switch_prob>: 
400590: 83 ee 3c $0x3c,%rsi 
400594: 83 fe 05 $0Ox5 ,hrsi 
400598 : 29 j 4005c3 <switch_prob+0x33> 
40059a: 24 f5 f8 06 40 00 *Ox4006f8( ,hrsi,8) 
4005al: 8d fd 00 00 00 OxO0(,%rdi ,8) ,%rax 
4005a8: 
4005a9: 
4005aa: “rdi,hrax 
4005ad: $0x3 ,Wrax 
4005b1: 
4005b2: %rdi,%rax 
4005b5 : $Ox4, hrax 
4005b9 : XTdi ,XTax 
4005bc: Wrax,%rdi 
4005bf : hrdi ,hrdi 
4005c3: Ox4b(%rdi) ,%rax 
4005c7 : 





图 3-53 家庭 作 业 3. 63 的 反 汇 编 代 码 


**3.64 考虑 下 面 的 源 代码 ， 这 里 R、S 和 了 都 是 用 #define 声明 的 常数 : 
long A[R] [S] [T] ; 


2 

3 long store_ele(long i, long j, long k, long *dest) 
4 攻 

5 *dest = A[i] [j] [k] ; 

6 return sizZeof(A) ; 

7 J} 


在 编译 这 个 程序 中 ，GCC 产生 下 面 的 汇编 代码 ; 


long storeele(long i, long Jj], long k, long *dest) 
i in Ardi, 7 in Krsi, k in Wrdx; dest in Yrcx 

1 store_ele: 

2 leaqg (Wrasi, Xrsi,2), Xrax 

3 leaqg (%rsi,%rax,4), “rax 

4 movg Wrdi, %rsi 

5 salq $6, “rsi 

6 addq %rsi, %rdi 

7 addq %rax, %rdi 


8 addq wrdi, %rdx 

9 movq A(,%rdx,8), %rax 
10 movq %rax, (%rcx) 

11 movl $3640 ，%eax 

12 ret 


A. 将 等 式 (3.1) 从 二 维 扩展 到 三 维 ， 提供 数 组 元 素 A[i] [j] [k] 的 位 置 的 公式 。 
B. 运用 你 的 逆向 工程 技术 ， 根 据 汇编 代码 ,确定 RR、S 和 T 荆 的 值 。 
"3,65 ”下面 的 代码 转 置 一 个 MX M 矩阵 的 元 素 ， 这 里 M 是 一 个 用 #define 定义 的 常数 : 


1 void transpose(long A[M] [M]) { 

2 long 43 3; 

3 for (i = 0; i < M; i++) 

4 for (j = 0; j < i; j++) + 
5 long t = A[il][j]; 

6 A[i] [j] = AL[Lj] [i]; 

7 A[j] [i] = t; 

8 

9 
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当 用 优化 等 级 -01 编译 时 ，GCC 为 这 个 函数 的 内 循环 产生 下 面 的 代码 : 


1 L682 

2 moVq (%rdx) , hrcx 
3 movq (Wrax) , Wrsi 
4 movg wrsi, (hrdx) 
5 movqg hrcx, (prax) 
6 addq $8, %rdx 

7 addq $120, %rax 

8 cmpq krdi, hrax 

9 jne .L6 


我 们 可 以 看 到 GCC 把 数组 索引 转换 成 了 指针 代码 。 
A. 哪个 寄存 器 保存 着 指向 数组 元 素 A[i] [j] 的 指针 ? 
B. 哪个 寄存 器 保存 着 指向 数组 元 素 A[j] [i] 的 指针 ? 
C. M 的 值 是 多 少 ? 
考虑 下 面 的 源 代码 ， 这 里 NR 和 NC 是 用 #define 声明 的 宏 表达 式 ， 计算 用 参数 n 表示 的 矩阵 A 的 
维度 。 这 段 代 码 计算 矩阵 的 第 j 列 的 元 素 之 和 。 


long sum_col(long n, long A[NR(n)] [NC(n)], long j) { 
long i; 
long result = 0; 
for (i = 0; i < NR(n); i++) 
result += A[i] []; 
return result; 


NA WW 一 


编译 这 个 程序 ，GCC 产生 下 面 的 汇编 代码 : 


long sum._col(long n, long A[NR(n)] [NC(n)], long 7) 
n in rdi, A in Wrsi, j in %rdx 
sum._col: 

leaq 1(,%rdi,4), %r8 

leaq (Xrdi Xrdi ,2), Wrax 

movqg Wrax, %rdi 

testq hrax, hrax 

jle .L4 

salq $3, %r8 

leaqg (hrTBi Xrdx,8), ECX 


movl $0, Weax 
movl $0, Wedx 
7 


addq (%zCX) ，XTaX 
addq $1, hrdx 
addq %r8, Wrcx 
cmpq “rdi, %rdx 


i ns i iid ld) al "ni 全 
© © NO WW NO 0 NO WW 3 一 


jne .L3 
rep; ret 
.L4: 
movl $0, eax 
20 ret 


运用 你 的 逆向 工程 技术 ， 确 定 NR 和 NC 的 定义 。 
这 个 作业 要 查看 GCC 为 参数 和 返回 值 中 有 结构 的 函数 产生 的 代码 ， 由 此 可 以 看 到 这 些 语言 特性 通 
常 是 如 何 实 现 的 。 

下 面 的 C 代码 中 有 一 个 阴 数 process， 它 用 结构 作为 参数 和 返回 值 ， 还 有 一 个 函数 eval， 它 
调用 process: 


1 typedef struct 1 
2 long a[2] ; 
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long *p; 
上 上 Strh: 


long u[2]; 
long qi; 
9 于 StrB: 


3 
4 
让 
6 typedef struct + 
7 
8 


11 strB process(strA s) 1{ 


12 StrB 工 ; 

13 r.uU[0] = g5.a[l], 

14 r.u[1] = s.a[0]; 

1> Tid 二 *S . 卫 ; 

16 return 工 ; 

17 } 

18 

I9 long eval(long x, long y, long Z) { 

20 strA 8; 

21 s.a[0] = x; 

22 s.a[l] = y; 

23 SP = &Z; 

24 strB r = process(s); 

25 return ru00)] * ru[li] + rq; 

26 } 

GCC 为 这 两 个 函数 产生 下 面 的 代码 : 
StrB process(strA s) 

] process: 

2 movq %rdi, %rax 

3 moVq 24(%rsp), %rdx 

4 movqg (%rdx) , %rdx 

5 movg 16(%rsp), hrcx 

6 movqg Yrcx, (%rdi) 

7 movq 8(%rsp), %rcx 

8 movgd NrcK, SNEAi) 

9 movqg rdx, 16(%rdi) 

10 ret 


long eval(long x, long y, long Zz) 
x in radi, y dn 次 FE 2 in ,rdx 

| eval: 

2 subq $104, %rsp 

3 movq rdx, 24(%rsp) 

4 leaqg 24(%rsp), %rax 

5 movg “rdi, (%rsp) 

6 movqg hrsi, 8(%rsp) 

7 movg hrax, 16(%rsp) 

8 leaq 64(%rsp), %rdi 


9 call process 

10 movq 72(%rsp), %rax 
11 addq 64(%rsp), “rax 
12 addq 80(%rsp), %rax 
13 addq $104, %rsp 

14 ret 


A. 从 eval 函数 的 第 2 行 我 们 可 以 看 到 ， 它 在 栈 上 分 配 了 104 个 字 节 。 画 出 eval 的 栈 帧 ， 给 出 它 
在 调用 process 前 存储 在 栈 上 的 值 。 

B. eval 调用 process 时 传递 了 什么 值 ? 

C. process 的 代码 是 如 何 访问 结构 参数 s 的 元 素 的 ? 

D，Pprocess 的 代码 是 如 何 设置 结果 结构 r 的 字段 的 ? 
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E. 完成 eval 的 栈 帧 图 ,给 出 在 从 process 返回 后 eval 是 如 何 访问 结构 r 的 元 素 的 。 
F. 就 如 何 传递 作为 函数 参数 的 结构 以 及 如 何 返 回 作为 消 数 结果 的 结构 值 ， 你 可 以 看 出 什么 通用 的 
原则 ? 
**3.68 在 下 面 的 代码 中 ，A 和 B 是 用 # define 定义 的 常数 : 


typedef struct { 


2 int x[A] [B]; /* Unknown constants A and B */ 
3 long y; 

4 } stri; 

5 

6 typedef struct { 

7 char array[B] ; 

8 3 

9 Short s[A]; 

10 long u; 

11 } str2; 


12 
13 void setVal(stri *p, str2 *q) { 


14 long vi = q->t; 
15 long v2 = qd->u; 
16 p->y = V1i+v2; 
17 } 


GCC 为 setVal 产生 下 面 的 代码 : 


void setVal(stri *p, str2 #9) 


p in %rdi, q in Krsi 


1 setVal: 
2 movslq 8(%rsi), %rax 
3 addq 32(%rsi), Wrax 


movq “rax, 184(%rdi) 
ret 


A 和 B 的 值 是 多 少 ? (答案 是 了 唯一 的 .) 
3.69 你 负责 维护 一 个 大 型 的 C 程序 ， 遇 到 下 面 的 代码 : 


1 typedef struct { 

2 int firgt; 

3 a_struct a[CNT] ; 
4 int last; 

5 } b_struct; 
6 

7 

8 

9 


w 四 


void test(long i, b_struct *bp) 
{ 
int n = bp->first + bp->last, 
10 a_struct *ap = &bp->al[il]; 
11 ap->x[ap->idx] = n; 
12 } 


编译 时 常数 CNT 和 结构 a_struct 的 声明 是 在 一 个 你 没有 访问 权限 的 文件 中 。 幸 好 ， 你 有 代 
码 的 “.o" 版 本 ， 可 以 用 OBJDUMP 程序 来 反 汇编 这 些 文件 ， 得 到 下 面 的 反 汇 编 代 码 : 


void test(Iong i, b_struct wbp) 
i in rdi, bp in Yrsi 
0000000000000000 <test>: 


1 

2 0: 8b 8e 20 01 00 00 moV Ox120(%rsi) ,Xecx 

3 6: 03 0e add (Xrsi),%ecx 

4 3: 48 8d 04 bf lea (%rdi,%rdi,4),%rax 
5 c: 48 8d 04 c6 lea (Xrsi,%rax,8),%rax 
6 10: 48 8b 50 08 mov Ox8(%rax) ,%rdx 

7 14: 48 63 c9 movslq hecx,%rcx 
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8 17 : 48 89 4c d0 10 moT Wrcx,Ox10(%rax, rdx,8) 
9 Is: c3 retq 


运用 你 的 逆向 工程 技术 ， 推断 出 下 列 内 容 : 

A. CNT 的 值 。 

B. 结构 a_struct 的 完整 声明 。 假 设 这 个 结构 中 只 有 字段 idx 和 x， 并 且 这 两 个 字段 保存 的 都 是 
有 符号 值 。 

考虑 下 面 的 联合 声明 : 


1 union ele { 

2 struct { 

3 long *p; 

4 long y; 

5 } el; 

6 struct + 

7 long Xx; 

8 Union ele *next; 
9 } ee2; 

10 让 ; 


这 个 声明 说 明 联 合 中 可 以 租 套 结构 。 
下 面 的 函数 (和 省略 了 一 些 表 达 式 ) 对 一 个 链表 进行 操作 ， 链 表 是 以 上 述 联合 作为 元 素 的 : 


1 void proc (union ele *up) { 
2 up-> = *( 本 ; 
3 了 


A. 下 列 字 段 的 偏 移 量 是 多 少 ( 以 字 节 为 单位 ): 
el.P 
el.y 
e2.X 
82 .next 
B. 这 个 结构 总 共 需 要 多 少 个 字 节 ? 
C. 编译 器 为 proc 产生 下 面 的 汇编 代码 : 


void proc (union ele *#*up) 
up in %rdi 
1 proc: 
2 movq 8(%hrdi), hrax 
3 movg (%rax), hrdx 
4 moVq (%rdx) , hrdx 
5 subq 8(%rax), %rdx 
6 moVq hrdx, (%rdi) 
7 ret 
在 这 些 信 息 的 基础 上 ， 填写 proc 代码 中 缺失 的 表达 式 。 提 示 : 有 些 联合 引用 的 解释 可 以 有 歧义 。 
当 你 清楚 引用 指引 到 哪里 的 时 候 ， 就 能 够 澄清 这 些 歧 义 。 只 有 一 个 答案 ,不 需要 进行 强制 类 型 转 
换 ， 且 不 违反 任何 类 型 限制 。 
写 一 个 阴 数 good echo， 它 从 标准 输入 读 取 一 行 ， 再 把 它 写 到 标准 输出 。 你 的 实现 应 该 对 任意 长 
度 的 输入 行 都 能 工作 。 可 以 使 用 库 函 数 fgets， 但 是 你 必须 确保 即使 当 输 入 行 要求 比 你 已 经 为 组 
冲 区 分 配 的 更 多 的 空间 时 ， 你 的 函数 也 能 正确 地 工作 。 你 的 代码 还 应 该 检查 错误 和 条件， 要 在 遇 到 
错误 条 件 时 返回 。 参 考 标准 I/O 函数 的 定义 文档 [45，61]。 
图 3-54a 给 出 了 一 个 顶 数 的 代码 ， 该 函数 类 似 于 函数 vfunct( 图 3-43a) 。 我 们 用 vfunct 来 说 明 过 
帧 指针 在 管理 变 长 栈 帧 中 的 使 用 情况 。 这 里 的 新 范 数 aframe 调用 库 函 数 alloca 为 局 部 数组 P 分 
配 空间 。alloca 类 似 于 更 常用 的 了 消 数 malloc， 区 别 在 于 它 在 运行 时 栈 上 分 配 空间 。 当 正在 执行 
的 过 程 返回 时 ， 该 空间 会 目 动 释放 。 

图 3-54b 给 出 了 部 分 的 汇编 代码 ， 建 立 帧 指针 ， 为 局 部 变量 i 和 P 分配 空 间 。 非 常 类 似 于 


过 ,#3 


"* 3.74 


3 
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vframe 对 应 的 代码 。 在 此 使 用 与 练习 题 3. 49 中 同样 的 表示 法 : 栈 指 针 在 第 4 行 设 置 为 值 s;， 在 
第 7 行 设置 为 值 ;; 。 数 组 p 的 起 始 地 址 在 第 9 行 被 设置 为 值 p。s; 和 pp 之 间 可 能 有 额外 的 空间 es， 
数组 p 结尾 和 5 之 间 可 能 有 额外 的 空间 ei。 

A. 用 数学 语言 解释 计算 ,的 逻辑 。 

B. 用 数学 语言 解释 计算 p 的 逻辑 。 

C. 确定 使 e; 的 值 最 小 和 最 大 的 地 和 si 的 值 。 

D. 这 段 代 码 为 ”和 户 的 值 保证 了 怎样 的 对 齐 属 性 ? 


#include <alloca.h> 


long aframe(long n, long idx, long *q) 二 
long 工 ; 
long **p = alloca(n * sizeof(long *)); 


PLO] = &i; 

for (i = 1; i < n; i++) 
Pli] = q; 

return *p[idx]; 





a ) C 代 码 


long aframe(liong n, long idx, long *q) 
n in Yrdi, idx in Yrsi, g in Xrdx 
aframe: 
pushq  %rbp 
movg %rsp, %rbp 
subg $16, %rsp Allocate space for i (Xrsp = $1) 


leaq 30(,%rdi,8), %rax 

andq $=16，Xrax 

subq rax, hrsp Allocate Space for array p (Xrsp = 5%») 
leaqg 15(%rsp) , %r8 

andq $-16, %r8 Set Yr8 to &p[0] 





b ) 部 分 生成 的 汇编 代码 
图 3-54 家庭 作 业 3.72 的 代码 。 该 隐 数 类 似 于 图 3-43 中 的 函数 


用 汇编 代码 写 出 匹配 图 3-51 中 函数 find_range 行 为 的 函数 。 你 的 代码 必须 只 包含 一 个 浮 点 比较 
指令 ， 并 用 条 件 分 支 指令 来 生成 正确 的 结果 。 在 2”* 种 可 能 的 参数 值 上 测试 你 的 代码 。 网 络 旁 注 
ASM:EASM 描述 了 如 何在 C 程序 中 衬 入 汇编 代码 。 

用 汇编 代码 写 出 匹配 图 3-51 中 消 数 find_range 行 为 的 函数 。 你 的 代码 必须 只 包含 一 个 浮 点 比较 
指令 ， 并 用 条 件 传送 指令 来 生成 正确 的 结果 。 你 可 能 会 想 要 使 用 指令 cmovp( 如 果 设 置 了 偶 校 验 位 
传送 ) 。 在 2” 种 可 能 的 参数 值 上 测试 你 的 代码 。 网 络 旁 注 ASM:EASM 描述 了 如 何在 C 程序 中 髓 
入 汇编 代码 。 

ISO C99 包括 了 支持 复数 的 扩展 。 任 何 浮 点 类 型 都 可 以 用 关键 字 complex 修饰 。 这 里 有 一 些 使 用 
复数 数据 的 示例 函数 ， 调 用 了 一 些 关 联 的 库 函 数 : 

] #include <complex.h> 

2 

3 double c_imag(double complex x) { 
4 return cimag(Xx) ; 

$ 寻 

0 

7 double c_real(double complex x) 1 
5 return creal(x); 
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9 J} 

10 

11 double complex c_sub(double complex x, double complex y) 1 
12 return x 一 y; 

7 


编译 时 ，GCC 为 这 些 函 数 产 生 如 下 代码 : 
double c_imag(double complex x) 

] c_imag: 

2 movapd ‘hxmmil, %xmmO 

3 ret 


double ¢_real(double complex XxX) 
4 c_real: 
5 rep; ret 


double complex c_sub(double complex x, double complex y) 
c_sub: 

subsd “xmm2, %xmmO 

subsd %xmm3, %xmml 

ret 


根据 这 些 例子 ， 回 答 下 列 问题 : 
A. 如 何 向 函数 传递 复数 参数 ? 
B. 如 何 从 函数 返回 复数 值 ? 
练习 题 答案 
3. 1 这 个 练习 使 你 熟悉 各 种 操作 数 格式 。 


B .多 










ET 


3.2 正如 我 们 已 经 看 到 的 ，GCC 产生 的 汇编 代码 指令 上 有 后 级 ， 而 反 汇 编 代 码 没 有 。 人 能够 在 这 两 种 形 
式 之 间 转 换 是 一 种 很 重要 的 需要 学 习 的 技能 。 一 个 重要 的 特性 就 是 ，x86-64 中 的 内 存 引 用 总 是 用 
四 字 长 寄存 器 给 出 ， 例 如 srax， 哪 怕 操 作 数 只 是 一 个 字 节 、 一 个 字 或 是 一 个 双 字 。 
这 里 是 带 后 缀 的 代码 


movl  %eax, (%rsp) 

movw (Wrax), %dx 

movb $0OxFF, %bl 

movb (%rsp,%rdx,4), %dl 
movgq (%rdx), %rax 

movw %dx, (%rax) 


3.3 由 于 我 们 会 依赖 GCC 来 产生 大 多 数 汇编 代码 ， 所 以 能 够 写 正确 的 汇编 代码 并 不 是 一 项 很 关键 的 技 
能 。 但 是 ， 这 个 练习 会 帮助 你 熟悉 不 同 的 指令 和 操作 数 类 型 。 








下 面 给 出 了 有 错误 解释 的 代码 : 


movb $OxF, 


(%ebx) 


movl %rax, (%rsp) 
movw (%rax) ,4(%rsp) 
movb %al,%sl 

moVvq %rax,$O0x123 
movl Xeax ,XIrdx 
movb %si, 8(%rbp) 


关系 。 





char 
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Cannot use Hebx as address register 


Mismatch between instruction suffix and register ID 


Cannot have both source and destination be memory references 


No register named %sl 


Cannot have inmmediate as destination 


Destination operand incorrect size 


Mismatch between instruction suffix and register 1D 


3.4 ”这 个 练习 给 你 更 多 经 验 ， 关 于 不 同 的 数据 传送 指令 ， 以 及 它们 与 C 语言 的 数据 类 型 和 转换 规则 的 


long long mOVG (S$rdi),$Srax 读 8 个 字 节 
mOVG Srax, (%rsi) 存 8 个 字 节 
novsbl (%rdi),$Seax 将 char 转换 成 int 
mov!] %Seax, (Srsi) 存 4 个 字 节 
char unsigned movsbl (%rdi),%eax 将 char 转换 成 int 
movl Seax, (%rsi) 存 4 个 字 节 
unsigned char long movzbl (%rdi),%eax 读 一 个 字 节 并 零 扩 展 
movd Srax, (%rsi) 存 8 个 字 节 
char movl (Srdi),%eax 读 4 个 字 节 
”| se | oa 
unsigned unsigned movl (Srdi), Seax 读 4 个 字 节 
char movb %al, (Srsi) 存 低位 字 节 
char short movsbw (%rdi), Sax 一 个 字 节 并 符号 扩展 
movw Sax, (Srsi) 六 之 个 字 节 














3.5 逆向 工程 是 一 种 理解 系统 的 好 方法 。 在 此 ， 我 们 想 要 逆转 C 编译 器 的 效果 ， 来 确定 什么 样 的 C 代 
码 会 得 到 这 样 的 汇编 代码 。 最 好 的 方法 是 进行 “模拟 ”， 从 值 x、y 和 z 开始 ， 它 们 分 别 在 指针 xp、 
yp 和 zp 指定 的 位 置 。 于 是 ， 我 们 可 以 得 到 下 面 这 样 的 效果 : 


void decodel (Jong *xp, long *yp, long *ZP) 


xp in Yrdi, yp ip Yrsi, zp in Yrdx 


decodel : 

moVdq 
moVq 
moVq 
moVdq 
movg 
movg 
ret 


(%rdi), %r8 
(Xrsi), %rcx 
(%rdx), hrax 
%r8, (%rsi) 
Xrezs, (Vrdx) 
Wrax, (%rdi) 


Get xX 
Get y 
Get Zz 
Store 
Store 


Store 


由 此 可 以 产生 下 面 这 样 的 C 代码 
void decodel(long *xp, long *yp, 


{ 


long x = *Xxp; 
long 了 = *yp; 
long Zz = 水 ZP; 


*yp 三 
*Zp 三 
*Xp = 


Xx, 
y; 
乙 ， 


XD 
*yP 
*2p 
at yp 
at zp 
at xp 


long *zZp) 
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3.6 这 个 练习 说 明了 leaq 指令 的 多 样 性 ， 同 时 也 让 你 更 多 地 练习 解读 各 种 操作 数 形式 。 虽然 在 图 3-3 
中 有 的 操作 数 格式 被 划分 为 “内 存 ” 类 型 ， 但 是 并 没有 访 存 发 生 。 












leag (Srax, Srcx), srdx 
f ' 






leaq OxA(, Srcx, 4) ,Srdx 10 十 4y 
leaq 9 ($raxy Srcx,2),%rdx 9 全 并 十 去 9 


3. 7 逆向 工程 再 次 被 证 明 是 学 习 C 代码 和 生成 的 汇编 代码 之 间 关 系 的 有 用 方式 。 
解决 此 类 型 问题 的 最 好 方式 是 为 汇编 代码 行 加 注释 ， 说 明正 在 执行 的 操作 信息 。 下 面 是 一 个 
例子 ， 


long scale2(long xX, long y,; long Zz) 





x i Ardi, y 1n Vrsi, 2 in. Wrdx 


scale2: 
leaqg (Xrdi,%rdi,4), %rax 5 半天 
leaq (rax, hrsi,2), %rax 5#*X+2Dwy 
leaqg (%rax, hrdx,8), %rax 5wX+2#y+B*Z 
ret 
由 此 很 容易 得 到 缺失 的 表达 式 : 


long t= 5*X+2*y+8* ZZ; 


3.8 这 个 练习 使 你 有 机 会 检验 对 操作 数 和 算术 指令 的 理解 。 指 令 序 列 被 设计 成 每 条 指令 的 结果 都 不 会 影 
啊 后 续 指 令 的 行为 。 


3.9 这 个 练习 使 你 有 机 会 生成 一 点 汇编 代码 。 答 案 的 代码 由 GCC 生成 。 将 参数 n 加 载 到 寄存 器 $ecx 
中 ， 它 可 以 用 字 节 寄存 器 %cl 来 指定 sarl 指令 的 移 位 量 。 使 用 mevl 指令 看 上 去 有 点 儿 奇 怪 ， 因 为 
n 的 长 度 是 8 字 节 ， 但 是 要 记 住 只 有 最 低位 的 那个 字 节 才 指 示 着 移 位 量 。 


long shift_left4_rightn(long x, long n) 














x in Yrdi, n in Wrsi 
shift_left4_rightn: 


movq Xrdi，Xrax Get x 

salq $4, %rax x <<= 4 

movl Wesi, %ecx Get n (4 bytes) 
sarg %Cl1, hrax XxX >>= 中 


3. 10 这 个 练习 比较 简单 ， 因 为 汇编 代码 基本 上 沿用 了 C 代码 的 结构 。 


long ti = X | y; 
long t2 = ti 22 3; 
long t3 = ~t2; 
long t4 = 2z-t3; 


3. 11 


3 12 


. 13 


. 14 
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A. 这 个 指令 用 来 将 寄存 器 $rdx 设置 为 0， 运 用 了 对 任意 Xx，x^zx=0 这 一 属性 。 它 对 应 于 C 语句 x=0。 

. 将 寄存 器 %$rdx 设置 为 0 的 更 直接 的 方法 是 用 指令 movq $0, Srdx。 

C. 不 过 ， 汇 编 和 反 汇 编 这 段 代 码 ， 我 们 发 现 使 用 xorq 的 版 本 只 需要 3 个 字 节 ， 而 使 用 movg 的 版 
本 需要 7 个 字 节 。 其 他 将 srdx 设置 为 0 的 方法 都 依赖 于 这 样 一 个 属性 ， 即 任何 更 新 低位 4 字 节 
的 指令 都 会 把 高 位 字 节 设置 为 0。 因此 ,我 们 可 以 使 用 xorl % edx,% edx(2 字 节 ) 或 movl 
$0,% edx(5 字 节 )。 

我 们 可 以 简单 地 把 cqto 指令 替换 为 将 寄存 器 srdx 设置 为 0 的 指令 ， 并 且 用 divq 而 不 是 idiva 作 

为 我 们 的 除法 指令 ， 得 到 下 面 的 代码 : 


void. uremdiv(unsigned long x, unsipgned long y, 


| 


unsigned Iong *qp, unsigned long *rp) 


x in Wrdi, y in %rsi, gp in Xrdx, rp in Wrex 


1 uremdiyv: 

2 movqg Hrdx, Wrd Copy gqp 

3 movg hrdi, hrax Move x to lower 8 bytes of dividend 
4 movl $0, hedx Set upper 8 bytes of dividend to 0 
5 divq %rsi Divide by y 

6 movg %rax, (4%r8) Store quotient at qp 

7 movg hrdx, (hrex) Store remainder at rp 

8 ret 


汇编 代码 不 会 记录 程序 值 的 类 型 ， 理 解 这 点 这 很 重要 。 相 反 地 ， 不同 的 指令 确定 操作 数 的 大 小 以 

及 是 有 符号 的 还 是 无 符号 的 。 当 从 指令 序列 映射 回 C 代码 时 ,我们 必须 做 一 点 儿 侦 查 工作 ， 推 断 

程序 值 的 数据 类 型 。 

A. 后 缀 ‘1’ 和 寄存 右 指 示 符 表明 是 32 位 操作 数 ， 而 比较 是 对 补 码 的 < 。 我 们 可 以 推断 aata 七 一 
是 是 int。 

B. 后 级 “w’ 和 寄存 右 指 示 符 表明 是 16 位 操作 数 ， 而 比较 是 对 补 码 的 >= 。 我 们 可 以 推断 aata 七 一 
定 是 shcrt。 

C. 后 级 pb’ 和 寄存 器 指 示 符 表明 是 8 位 操作 数 ， 而 比较 是 对 无 符号 数 的 <= 。 我 们 可 以 推断 data + 
一 定 是 unsigned char。 

D. 后 缀 “gq 和 寄存 器 指示 符 表 明 是 64 位 操作 数 ， 而 比较 是 != ， 有 符号 、 无 符号 和 指针 参数 都 是 
一 样 的 。 我 们 可 以 推断 data 七 可 以 是 long、unsigned long 或 者 某 种 形式 的 指针 。 

这 道 题 与 练习 题 3. 13 类 似 ， 不 同 的 是 它 使 用 了 TEST 指令 而 不 是 CMP 指令 。 

A. 后 级 'q’ 和 寄存 需 指 示 符 表明 是 64 位 操作 数 ， 而 比较 是 >= ， 一 定 是 有 符号 数 。 我 们 可 以 推断 
data 一 定 是 Long。 

B. 后 级“w ”和 寄存 右 指 示 符 表明 是 16 位 操作 数 ， 而 比较 是 ==， 这 个 对 有 符号 和 无 符号 都 是 一 样 
的 。 我 们 可 以 推断 data t 一 定 是 short 或 者 unsigned short。 

C. 后 缀 “b’” 和 寄存 器 指示 符 表明 是 8 位 操作 数 ， 而 比较 是 针对 无 符号 数 的 > 。 我 们 可 以 推断 data _t 
一 定 是 unsigned char。 

D. 后 缀 "1 和 寄存 器 指示 符 表 明 是 32 位 操作 数 ， 而 比较 是 <= 。 我 们 可 以 推断 data t 一 定 是 int。 

这 个 练习 要 求 你 仔细 检查 反 汇 编 代 码 ， 并 推理 跳 转 目标 的 编码 。 同 时 练习 十 六 进 制 运算 。 

A. je 指令 的 目标 为 0x4003fc+ 0x02。 如 原始 的 反 汇 编 代 码 所 示 ， 这 就 是 0x4003fe。 
4003fa: 74 02 je 4003fe 
4003fc: ff do callq *%rax 

B，jb 指令 的 目标 是 0x400431 一 12( 由 于 0xf4 是 一 12 的 一 个 字 节 的 补 码 表示 )。 正 如 原始 的 反 汇 
编 代 码 所 示 ， 这 就 是 0x400425: 
40042f: 74 f4 je 400425 
400431: 5d pop  %rbp 


C, 根据 反 汇 编 器 产生 的 注释 ， 跳 转 目 标 是 绝对 地 址 0x400547。 根 据 字 节 编 码 ， 一定 在 距离 pop 
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指令 0x2 的 地 址 处 。 减 去 这 个 值 就 得 到 地 址 0x400545。 注 意 ，ja 指令 的 编码 需要 2 个 字 节 ， 
它 一 定位 于 地 址 0x400543 处 。 检 查 原始 的 反 汇 编 代码 也 证 实 了 这 一 点 : 


400543: 77 02 ja 400547 
400545: 5d pop %rbp 


D. 以 相反 的 顺序 来 读 这 些 字 节 , 我 们 看 到 目标 偏 移 量 是 0xffffff73， 或 者 十 进 制 数 一 141。 
0x4005ed(nop 指令 的 地 址 ) 加 上 这 个 值得 到 地 址 0x400560: 


4005e8: e9 73 ff ff ff jmpq 400560 
4005ed: 90 nop 


对 汇编 代码 写 注释 ， 并 且 模 仿 它 的 控制 流 来 编写 C 代码 ， 是 理解 汇编 语言 程序 很 好 的 第 一 步 。 本 
题 是 一 个 具有 简单 控制 流 的 示例 ， 给 你 一 个 检查 逻辑 操作 实现 的 机 会 。 
A. 这 里 是 C 代码 : 


void goto_cond(long a, long *p) + 
if (p == 0) 
goto done; 
if (*p >= a) 
goto done; 
*p 三 a; 
done: 
return,; 


} 


B. 第 一 个 条 件 分 支 是 && 表达 式 实现 的 一 部 分 。 如 果 对 p 为 非 空 的 测试 失败 ， 代码 会 跳 过 对 a>*p 
的 测试 。 

这 个 练习 帮助 你 思考 一 个 通用 的 翻译 规则 的 思想 以 及 如 何 应 用 它 。 

A. 转换 成 这 种 替代 的 形式 ， 只 需要 调换 一 下 几 行 代码 : 


long gotodiff_se_alt(long x, long y) { 
long result; 
if (x < y) 
goto x_lt_y; 
Ee_cnt++; 
result =xX— y; 
return result; 
Xt y: 
1t_cntt++; 
result = y= xX; 
return result; 


B. 在 大 多 数 情 况 下 ， 可 以 在 这 两 种 方式 中 任意 选择 。 但 是 原来 的 方法 对 常见 的 没有 else 语句 的 
情况 更 好 一 些 。 对 于 这 种 情况 ， 我 们 只 用 简单 地 将 翻译 规则 修改 如 下 : 


t = test-expr; 
ie At 
goto done; 
then-statement 
done: 


基于 这 种 替代 规则 的 翻译 更 麻烦 一 些 。 
这 个 题目 要 求 你 完成 一 个 艇 套 的 分 支 结 构 ， 在 此 你 会 看 到 如 何 使 用 翻译 if 语句 的 规则 。 大 部 分 情 
况 下 ， 机 器 代码 就 是 C 代码 的 直接 翻译 。 
long test(long x, long y, long z) + 
long val = X+y+Z; 
if (x < =3) { 
i (¥'  Z) 
Val = 入 本 yj 
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else 
Val = y*2Z; 
} else if (x > 2) 
Val = Xx*Z; 
return val,; 
于 
3. 19 这 道 题 巩 固 加 强 了 我 们 计算 预测 错误 处 罚 的 方法 。 
A. 可 以 直接 应 用 公式 得 到 Tvwp 王 2X(31 一 16) 王 30。 
B. 当 预 测 错误 时 ， 肾 数 会 需要 大 概 16 十 30= 二 46 个 周期 。 
3. 20 这 道 题 提供 了 研究 条 件 传送 使 用 的 机 会 。 
A. 运算 符 是 “/”。 可 以 看 到 这 是 一 个 通过 右 移 实现 除 以 2 的 3 次 寡 的 例子 ( 见 2.3.7 节 )。 在 移 位 
& 王 3 之 前 ， 如 果 被 除数 是 负数 的 话 ， 必 须 加 上 偏 移 量 2* 一 1==7。 
B. 下 面 是 该 汇编 代码 加 上 注释 的 一 个 版 本 : 


long arith(long Xx) 


X ID Krdi 
arith: 
leaqg 7(%rdi), %rax temp = x+7 
testq  %rdi, %rdi Test x 
cmovns %rdi, %rax If x>= 0, temp = xX 
sarg $3, hrax result = temp >> 3 (= x/8) 
ret 


这 个 程序 创建 一 个 临时 值 等 于 + 十 7， 预 期 x 为 负 ， 需要 加 偏 移 量 时 使 用 。cmovns 指令 在 当 
Zz 之 0 条 件 成 立时 把 这 个 值 修改 为 +， 然 后 再 移动 3 位 ， 得 到 x/8。 
3.21 这 个 题目 类 似 于 练习 题 3. 18， 除 了 有 些 条 件 语句 是 用 条 件数 据 传送 实现 的 。 虽 然 将 这 段 代 码 装 进 
到 原始 的 C 代码 中 看 起 来 有 些 令 人 惧怕 ， 但 是 你 会 发 现 它 相当 严格 地 遵守 了 翻译 规则 。 


long test(long x, long y) { 
long val = 8*x; 
if (y > 0) 
i (x < ¥) 
val = y-xX; 
else 
val = x&y; 
} else if (y <= -2) 
val = x+y; 
return val; 


} 
3. 22 ”A. 如 果 构 建 一 张 使 用 数据 类 型 int 来 计算 的 阶乘 表 ， 得 到 下 面 这 样 的 表 : 


5 040 

40 320 

362 880 

3 628 800 

39 916 800 
479 001 600 

1 932 053 504 


a 
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我 们 可 以 看 到 ， 计算 13! 溢出 了 。 正 如 在 练习 题 2. 35 中 学 到 的 那样 ， 还 可 以 通过 计算 

Xx/n， 看 它 是 否 等 于 (n 一 1)! 来 测试 n! 的 计算 是 否 洲 出 了 (假设 我 们 已 经 能 够 保证 (n 一 1)! 的 
计算 没有 溢出 )。 在 此 处 ， 我 们 得 到 1 932 053 504/13 王 161 004 458. 667。 另 外 有 个 测试 方法 ， 
可 以 看 到 10! 以 上 的 阶乘 数 都 必须 是 100 的 倍数 ， 因 此 最 后 两 位 数字 必然 是 0。131! 的 正确 值 
应 该 是 6 227 020 800 。 

B. 用 数据 类 型 1ong 来 计算 ， 直 到 20! 才 溢 出 ， 得 到 2 432 902 008 176 640 000 。 

编译 循环 产生 的 代码 可 能 会 很 难 分 析 ， 因 为 编译 器 对 循环 代码 可 以 执行 许多 不 同 的 优化 ， 也 因为 

可 能 很 难 把 程序 变量 和 寄存 器 匹配 起 来 。 这 个 特殊 的 例子 展示 了 几 个 汇编 代码 不 仅仅 是 C 代码 直 

接 翻 译 的 地 方 。 

A. 虽然 参数 x 通 过 寄存 器 srdi 传递 给 函数 ， 可 以 看 到 一 旦 进入 循环 就 再 也 没有 引用 过 该 寄存 器 
了 。 相 反 ， 我 们 看 到 第 2 一 5 行 上 寄存 器 $rax、%rcx 和 s%rdx 分 别 被 初始 化 为 x、x*x 和 x+x。 因 
此 可 以 推断 ， 这 些 寄存 器 包含 着 程序 变量 。 

B. 编译 器 认为 指针 p 总 是 指向 x， 因 此 表达 式 (*p)++ 就 能 够 实现 x 加 一 。 代 码 通过 第 7 行 的 leaqg 
指令 ， 把 这 个 加 一 和 加 y 组合 起 来 。 

C. 添加 了 注释 的 代码 如 下 : 


long dw._loop(long Xx) 


x initially in %rdi 


1 dw_loop: 

2 movg %rdi, hrax Copy xX to Yrax 

1 movg wrdi, hrcx 

4 imulq %rdi, hrcx Compute y = Xx*x 

5 leaq (Wrdi,%rdi), %rdx Compute n = 2#*x 

6 2 loop'; 

7 leag 1(%rcx,%rax), Whrax Compute x t= y+1 
8 subq $1, %rdx Decrement n 

9 testq ‘hrdx, %hrdx Test 1 

10 jg ,LL2 If > 0, goto loop 
11 rep; ret Return 


这 个 汇编 代码 是 用 跳 转 到 中 间 方 法 对 循环 的 相当 直接 的 翻译 。 完 整 的 C 代码 如 下 : 
long loop_while(long a, long b) 


long result = 1; 
while (a < b) { 
result = result * (a+b),; 
a = a+T; 
} 
return result; 
} 


这 个 汇编 代码 没有 完全 遵循 guarded-do 翻译 的 模式 ， 可 以 看 到 它 等 价 于 下 面 的 C 代码 : 
long loop_while2(long a, long b) 


long result = b; 

while (b > 0) { 
result = result * a; 
b = b-a; 

} 


return result,; 


我 们 会 经 常 看 到 这 样 的 情况 ,特别 是 用 较 高 优化 等 级 编译 时 ， 此 时 GCC 会 自作 主张 地 修改 生 
成 代码 的 格式 ， 同 时 又 保留 所 要 求 的 功能 。 
能 够 从 汇编 代码 工作 回 C 代码 ， 是 逆向 工程 的 一 个 主要 例子 。 
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A. 可 以 看 到 这 段 代码 使 用 的 是 跳 转 到 中 间 翻 译 方法 ， 在 第 3 行使 用 了 jmp 指令 。 
B. 下 面 是 原始 的 C 代码 : 


long fun_a(unsigned long x) { 
long val = 0; 
while (x) { 
Val “= XX; 
天 :六 2 到 
} 
return val & Oxil:; 
} 


C. 这 个 代码 计算 参数 x 的 奇偶 性 。 也 就 是 ， 如 果 x 中 有 奇数 个 1， 就 返回 1， 如 果 有 偶数 个 1， 就 
返回 0。 
这 道 练习 题 意 在 加 强 你 对 如 何 实现 循环 的 理解 。 


long fact_for_gd_goto(long n) 
' 
long i = 2; 
long result = 1; 
if (n <= 1) 
goto done; 
loop: 
result *= i; 
主 直 和 和 |， 
if (i <= n) 
goto loop; 
done: 
return result; 


} 


这 个 问题 比 练习 题 3. 26 要 难 一 些 ， 因 为 循环 中 的 代码 更 复杂 ， 而 整个 操作 也 不 那么 熟悉 。 
A. 以 下 是 原始 的 C 代码 : 


long fun_b(unsigned long x) { 

long val = 0; 

long i; 

for (i = 64; i l= 0; 1==) 1 
val = (val << 1) | (x & Ox1); 
xX >>= 1; 

; 

return val,; 


l 


B. 这 段 代 码 是 用 guarded-do 变换 生成 的 ,但 是 编译 器 发 现 因 为 i 初始 化 成 了 64， 所 以 一 定 会 满足 
测试 i 和 关 0， 因 此 初始 的 测试 是 没 必要 的 。 

C. 这 段 代 码 把 x 中 的 位 反 过 来 ， 创 造 一 个 镜像 。 实 现 的 方法 是 : 将 x 的 位 从 左 往 右 移 ， 然 后 再 填 
入 这 些 位 ， 就 像 是 把 val 从 右 往 左 移 。 

我 们 把 for 循环 翻译 成 while 循环 的 规则 有 些 过 于 简单 一 一 这 是 唯一 需要 特殊 考虑 的 方面 。 

A. 使 用 我 们 的 翻译 规则 会 得 到 下 面 的 代码 : 


/* Naive translation of for loop into while loop */ 
/* WARNING: This is buggy code */ 
long sum = 0; 
long i = 0; 
while (i < 10) { 
if (i & 1) 
/* This will cause an infinite loop */ 
continue,; 
sum += 工 ; 
证 
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因为 continue 语句 会 阻止 索引 变量 i 被 修改 ， 所 以 这 段 代码 是 无 限 循环 。 
B. 通用 的 解决 方法 是 用 goto 语句 替代 continue 语句 ， 它 会 跳 过 循环 体 中 余下 的 部 分 ， 直 接 跳 到 
update 部 分 : 


/* Correct translation of for loop into while loop */ 
long sum = 0; 
long i = 0; 
while (i < 10) { 
i (入 名 二) 
goto update; 
sum 十 = 工 ; 
Update : 
了 寺 十 :; 


} 


这 个 练习 给 你 一 个 机 会 ， 推 算出 switch 语句 的 控制 流 。 要 求 你 将 汇编 代码 中 的 多 处 信息 综合 

来 回答 这 些 问 题 : 

@ 汇编 代码 的 第 2 行将 x 加 上 1, 将 情况 (cases) 的 下 界 设置 成 0。 这 就 意味 着 最 小 的 情况 标号 为 一 1。 

@ 当 调 整 过 的 情况 值 大 于 8 时， 第 3 行 和 第 4 行 会 导致 程序 跳 转 到 默认 情况 。 这 就 意味 着 最 大 情 
况 标号 为 一 1 十 8 一 7。 

e@ 在 跳 转 表 中 ， 我 们 看 到 第 6 行 的 表 项 (情况 值 3) 与 第 9 行 的 表 项 (情况 值 6) 都 以 第 4 行 的 跳 转 指 
令 作 为 同样 的 目标 (.L2)， 表 明 这 是 默认 的 情况 行为 。 因 此 ， 在 switch 语句 体 中 缺失 了 情况 标 
号 3 和 一 6。 

9 在 跳 转 表 中 ， 我 们 看 到 第 3 行 和 第 10 行 上 的 表 项 有 相同 的 目的 。 这 对 应 于 情况 标号 0 和 7。 

@ 在 跳 转 表 中 ， 我 们 看 到 第 5 行 和 第 7 行 上 的 表 项 有 相同 的 目的 。 这 对 应 于 情况 标号 2 和 4。 

从 上 述 推 理 ， 我 们 得 出 如 下 绪论 : 

A. switch 语句 体 中 的 情况 标号 值 为 一 1]、0、1、2、4、5 和 7。 

B. 目标 为 L5 的 情况 标号 为 0 和 ?7。 

C. 目标 为 .1L7 的 情况 标号 为 2 和 4。 

逆向 工程 编译 出 switch 语句 ， 关 键 是 将 来 自 汇编 代码 和 跳 转 表 的 信息 结合 起 来 ， 理 清 不 同 的 情 

况 。 从 ja 指令 (第 3 行 ) 可 知 ， 默 认 情 况 的 代码 的 标号 是 .上 2。 我 们 可 以 看 到 ， 跳 转 表 中 只 有 另 一 

个 标号 重复 出 现 ， 就 是 .5， 因 此 它 一 定 是 情况 C 和 D 的 代码 。 代 码 在 第 8 行 落 和 下面 的 情况 ， 

因而 标号 .L7 符合 情况 A， 标 号 .L3 符合 情况 B。 只 剩 下 标号 .L6， 符 合 情 况 下 。 

原始 的 CC 代码 如 下 : 
void switcher(long a, long b, long c¢c, long *dest) 

{ 

long val; 
switch(a) { 
case 5: 
c=b°* 15; 
/* Fall through */ 
case 0: 
val = c + 112; 
break; 
case 2: 
case 7: 
val = (c + b) << 2; 
break; 
case 4: 
Val = a; 
break; 
default: 
val = b; 
} 


*dest = val; 


号 32 


3. 34 


第 3 章 程序 的 机 器 级 表示 235 


追踪 此 等 级 上 的 程序 的 执行 有 助 于 理解 过 程 调用 和 返回 的 很 多 方面 。 可 以 明确 看 到 调用 时 控制 是 
怎么 传 给 过 程 的 以 及 返回 时 调用 函数 如 何 继 续 执 行 的 。 还 可 以 看 到 参数 通过 寄存 器 $rdi 和 %rsi 
传递 ， 结 果 通 过 寄存 器 Srax 返回 。 


















一 TT 

| Fe | We [| | vp | mp 
Sl | |waaan- 
west | 0 | ~ | ~ [onererrrensl wa | istWAn 
oomel om | | 1 | ovreene| oo0s5 | | 
wa | 9 | 1 | | oerererrons| we | MR ian | 
momolmo | 9 | | ~ |omrrreeremol oonsss | ascWAH 
oom] im | 9 | 1 | 9 ovreremo| as | 
aa | 9 | 1 | [omererremo| oosss | As | 
me | ovavosss | ropr ropa | 9 | 1 | 9 | orererrrreons | or00s6s | Mirta00 | 
a [ovavoss [wor | 9 | 1 | % [omereriemo| | 久生 ein 


由 于 是 多 种 数据 大 小 混合 在 一 起 ， 这 道 题 有 点 儿 难 。 

让 我 们 先 描述 第 一 种 答案 ， 再 解释 第 二 种 可 能 性 。 如 果 假 设 第 一 个 加 (第 3 行 ) 实 现 *u+=a， 
第 二 个 加 (第 4 行 ) 实 现 vt=b， 然 后 我 们 可 以 看 到 a 通过 % edi 作为 第 一 个 参数 传递 ， 把 它 从 4 个 
字 节 转换 成 8 个 字 节 ， 再 加 到 %rdx 指向 的 8 个 字 节 上 。 这 就 意味 着 a 必定 是 int 类 型 ，u 一定 是 
long * 类 型 。 还 可 以 看 到 参数 b 的 低位 字 节 被 加 到 了 %rcx 指向 的 字 节 。 这 就 意味 着 这 一定 是 
char * ， 但 是 b 的 类 型 是 不 确定 的 一 一 它 的 大 小 可 以 是 1、2、4 或 8 字 节 。 注 意 到 返回 值 为 6 就 
能 解决 这 种 不 确定 性 ， 这 个 返回 值 是 a 和 b 大 小 的 和 。 因 为 我 们 知道 a 的 大 小 是 4 字 节 ， 所 以 可 
以 推断 出 b 一 定 是 2 字 节 的 。 

该 阴 数 的 一 个 加 了 注释 的 版 本 解释 了 这 些 细节 : 


int procprobl(int a, short b, long *u, char *v) 








a in Wedi, b in Yoel, in Xrdx, Vv in rex 


| procprob: 

2 movslq %edi, %rdi Convert a to long 

3 addq Xzrdi，(Xrdx) Add to *#*u (long) 

4 addb Wsil, (%rcx) Add low-order byte of b to *v 
5 movl $6, heax Return 4+2 

6 ret 


此 外 ， 我 们 可 以 看 到 如 果 以 它们 在 CC 代码 中 出 现 相反 的 顺序 在 汇编 代码 中 计算 这 两 个 和 ， 这 
段 汇 编 代 码 同样 合法 。 这 会 导致 交换 参数 a 和 b， 参 数 u 和 vv， 得 到 如 下 原型 : 


int procprob(int b, short a, long *v, char *u); 


这 个 例子 展示 了 被 调用 者 保存 寄存 需 的 使 用 ， 以 及 保存 局 部 数据 的 栈 的 使 用 。 

A. 可 以 看 到 第 9~14 行 将 局 部 值 a0 一 a5 分 别 保 存 进 被 调用 者 保存 寄存 器 %rbx\%r15\%zr14、 
Sr13、$rl2 和 grbp。 

B. 局 部 值 a6 和 a7 emi nnd 0 和 8 的 地 方 (第 16 和 18 行 )。 

C. 在 存储 完 6 个 局 部 变量 之 后 ， 这 个 程序 用 完了 所 有 的 被 调用 者 保存 寄存 器 ， 所 以 剩 下 的 两 个 值 
保存 在 栈 上 。 

这 道 题 给 了 一 个 检查 递归 函数 代码 的 机 会 。 要 学 的 一 个 很 重要 的 内 容 就 是 ， 弟 归 代 码 与 我 们 看 到 

的 其 他 函数 的 结构 一 模 一 样 。 栈 和 寄存 器 保存 规则 足以 让 递归 函数 正确 热 行 

A. 寄存 器 $rbx 保存 参数 x 的 值 ， 所 以 它 可 以 被 用 来 计算 结果 表达 式 。 

B. 汇编 代码 是 由 下 面 的 C 代码 产生 而 来 的 : 
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long rfun(unsigned long x) { 
if (x == 0) 
return 0; 
unsigned long nx = X>>2; 
long rv = rfun(nx); 
return XX 十 rvY; 


} 


这 个 练习 测试 你 对 数据 大 小 和 数组 索引 的 理解 。 注 意 ， 任 何 类 型 的 指针 都 是 8 个 字 节 长 。short 
数据 类 型 需要 2 个 字 节 ， 而 int 需要 4 个 。 


于 





这 个 练习 是 关于 整数 数组 E 的 练习 的 一 个 变形 。 理 解 指 针 与 指针 指向 的 对 象 之 间 的 区 别 是 很 重要 
的 。 因 为 数据 类 型 short 需要 2 个 字 节 ， 所 以 所 有 的 数组 索引 都 将 乘 以 因子 2。 前 面 我 们 用 的 是 
movl， 现 在 用 的 则 是 movw。 


xXxs+2 leal2 (%$rdx), Srax 
S MI[xs+6] mmOVW6 (Srdx) , Sax 


&S [i] Xes 十 2 leal (%rdx, Srcx, 2) , 委 工 aaX 
S[4*i+1] MI[xs + 8i+ 2] moOVvWw2 (Srdx, Srcx, 8) , Sax 
S+i-—5 Xxs+2i—10 leal-10 (S$rdx, Srcx,2),$Srax 





这 个 练习 要 求 你 完成 缩放 操作 ， 来 确定 地 址 的 计算 ， 并 且 应 用 行 优先 索引 的 公式 (3. 1)。 第 一 步 是 
注释 汇编 代码 ， 来 确定 如 何 计算 地 址 引用 : 


long sum_element(long 工 ， Iong j) 
i in %rdi, j in Wrsi 


sum_element: 


| 

2 leag 0(,%rdi,8), “rdx Compute 8i 

3 subq wrdi, %rdx Compute 7i 

addq Wrsi, hrdx Compute 7i 十 } 

5 leaq (Wrsi,%rsi,4), %rax Compute 5j 

6 addq “rax, %rdi Compute i + 5) 

7 moVdq Q(,%rdi,8), %rax Retrieve Mlxo + 8 (5j + i)] 
8 addq PpP(,%rdx,8), rax Add Mlxp + 8 (i + 站] 

9 ret 


我 们 可 以 看 出 ， 对 和 矩阵 P 的 引用 是 在 字 节 偏 移 8X(7i 十 门 的 地 方 ， 而 对 和 矩阵 8 的 引用 是 在 字 
节 偏 移 8X(5j 十 忆 的 地 方 。 由 此 我 们 可 以 确定 有 7 列 , 而 Q@Q 有 5 列 ， 得 到 M==5 和 N=7。 
这 些 计 算是 公式 (3. 1) 的 直接 应 用 : 
@ 对 于 工 王 4，C 王 16 和 j= 二 0， 指 针 Aptr 等 于 zx， 十 4X(16i 二 0) 二 x 十 64i。 
@ 对 于 上 二 4，C= 二 16,， i 二 0 和 j= 二 kk， 指 针 Bptr 等 于 xs 十 4X(16X0 二 k) 二 xs 十 4k。 
@ 对 于 LL 二 4,，C 二 16, i 二 16 和 j= 二 kk，Bend 等 于 xs 十 4X(16X16 十 k)= 二 xs 十 1024 十 4k。 
这 个 练习 要 求 你 能 够 研究 编译 产生 的 汇编 代码 ， 了 解 执行 了 哪些 优化 。 在 这 个 情况 中 ， 编 译 器 做 
一 些 聪明 的 优化 。 

让 我 们 先 来 研究 一 下 C 代码 ， 然 后 看 看 如 何 从 为 原始 函数 产生 的 汇编 代码 推导 出 这 个 5C 
代码 。 
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/* Set all diagonal elements to val */ 
void fix_set_diag_opt (fix_matrix A, int val) 1{ 
int *Abase = &A[O] [0]; 
long i = 0; 
long iend = N*(N+1); 
do { 
Abase[i] = val; 
i += (N+1); 
} while (i != iend); 


这 个 函数 引入 了 一 个 变量 abase，int * 类 型 的 ， 指 向 数组 A 的 起 始 位 置 。 这 个 指针 指向 一 
个 4 字 节 整数 序列 ， 这 个 序列 由 按照 行 优先 顺序 存放 的 A 的 元 素 组 成 。 我 们 引入 一 个 整数 变量 in- 
dex， 它 一 步 一 步 经 过 A 的 对 角 线 ， 它 有 一 个 属性 ， 那 就 是 对 角 线 元 素 i 和 i 十 1 在 序列 中 相隔 NN 十 
1 个 元 素 ， 而 且 一 旦 我 们 到 达 对 角 线 元 素 N( 索 引 为 N(N 十 1))， 我 们 就 超出 了 边界 。 

实际 的 汇编 代码 遵循 这 样 的 通用 格式 ， 但 是 现在 指针 的 增加 必须 乘 以 因子 4。 我 们 将 寄存 
器 srax 标记 为 存放 值 index4， 等 于 C 版 本 中 的 index， 但 是 使 用 因子 4 进行 伸缩 。 对 于 N= 16， 
我 们 可 以 看 到 对 于 index4 的 停止 点 会 是 4. 16(16 十 1) 王 1088。 


1 fix_set_diag: 
void fix_set_ diag(fix matrix A, int val) 


A in Xrdi, va in Yrsi 


2 movl $0, “eax Set index4 = 0 

3 LS: Loop: 

4 movl Wesi, (%rdi ,rax) Set Abase[index4d/4} to val 
5 addq $68, %rax TIncrement index4d += 4(N+1) 
6 cmpq $1088, hrax Compare index4; 4N(N+1) 

7 jne . 工 13 If !=, goto loop 

8 rep; ret Return 


3.41 这 个 练习 让 你 思考 结构 的 布局 ， 以 及 用 来 访问 结构 字段 的 代码 。 该 结构 声明 是 书 中 所 示例 子 的 一 
个 变形 。 它 表明 舱 套 的 结构 的 分 配 是 将 内 层 结构 艇 人 到 外 层 结构 之 中 。 
A. 该 结构 的 布局 图 如 下 : 
偏 移 0 16 24 


8 12 
内 容 | ?| sx | sy | mx 


B. 它 使 用 了 24 个 字 节 。 
C. 同 平时 一 样 ， 我 们 从 给 汇编 代码 加 注释 开始 : 


void sp_init(struct prob *sp) 


sp in Krai 
L sp_init: 
2 movl 12(%rdi), %eax Get sp->3.y 
3 movl Weax, 8(%rdi) Save in sp->s.x 
+ leaq 8(%rdi) , %rax Compute &(sp->s .x) 
5 movg rax, (%rdi) Store in sp->p 
6 movg %rdi, 16(%rdi) Store sp in sp->next 
Z ret 
由 此 可 以 产生 如 下 C 代码 : 
void sp_init(struct prob *sp) 
{ 
sp->s.,x = sp->s.y; 
sp->p = &(sp->s.x),; 
sp~->next = sp; 
} 


3. 42 ”这 道 题 说 明了 一 个 非常 普通 的 数据 结构 和 对 它 的 操作 时 如 何在 机 器 代码 中 实现 。 要 解答 这 些 问 题 ， 
还 是 先 对 汇编 代码 加 注释 ， 确 认 出 该 结构 的 两 个 字段 分 别 在 偏 移 量 0( 字 段 v) 和 8( 字 段 p) 处 。 
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long fun(struct ELE *ptr) 
ptr in hrdi 


1 fun: 

2 movl $0, heax result = 0 

3 jmp .L2 Goto middle 

4 .上 L3: loop: 

5 addq (%rdi), hrax result += ptr->vV 

6 movdq 8(%rdi), %rdi ptr = ptr->p 

7 i middle: 

8 testq  %rdi, %rdi Test ptr 

9 jne ee If /= NULL; goto loop 
10 rep; ret 


A. 根据 加 了 注释 的 代码 ， 可 以 得 到 C 语言 : 


long fun(struct ELE *ptr) { 
long val = 0; 
While (ptr) { 
Val += ptr->v; 
ptr = ptr->p; 
} : 
return val,; 


} 


B. 可 以 看 到 每 个 结构 都 是 一 个 单 链 表 中 的 元 素 ， 字 段 v 是 元 素 的 值 ， 字 段 p 是 指向 下 一 个 元 素 的 
指针 。 函 数 fun 计算 列表 中 元 素 值 的 和 。 
3. 43 结构 和 联合 涉及 的 概念 很 简单 ， 但 是 需要 练习 来 习惯 不 同 的 引用 模式 和 它们 的 实现 。 


表达 式 


up->t1.u movg (%rdi),%rax 


movg Srax, (%rsi) 
Up-—>tL,y movw 8(%rdi),$ax 

mOVW Sax, (Srsi) 
&up->tl1.w addq $,%rdi 

movg %rdi, (Srsi) 
Up=>t27a lup= ela] movg (S$rdi),%Srax 

movl (%rdi,®Srax,4),$Seax 

movl] Seax, (S$rsi) 

movg 8(%rdi),%rax 


movb (Srax),$Sal 





movb %al, (srsi) 


3. 44 想 理解 各 种 数据 结构 需要 多 少 存储 ， 以 及 编译 器 为 访问 这 些 结构 产生 的 代码 ， 理 解 结构 的 布局 和 
对 齐 是 非常 重要 的 。 这 个 练习 让 你 看 清楚 一 些 示 例 结构 的 细节 。 


A struct Pl { int i; Char Gy int JJ7 ehar d; }; 
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C. struct P3 { short w[3]; char c[3] }; 





D. struct P4 { short w[5]; char *c[3] }:; 


0 


3. 45 ”这 是 一 个 理解 结构 的 布局 和 对 齐 的 练习 。 
A. 这 里 是 对 象 大 小 和 字 节 偏 移 量 : 





B. 这 个 结构 一 共 是 56 个 字 节 长 。 结 构 的 结尾 必须 填充 4 个 字 节 来 满足 8 字 节 对 齐 的 要 求 。 
C. 当 所 有 的 数据 元 素 的 长 度 都 是 2 的 震 时 ， 一 种 行 之 有 效 的 策略 是 按照 大 小 的 降序 排列 结构 的 元 
素 。 导 致 声明 如 下 : 


struct + 
char *a; 
double C3 
long 区 ; 
float e; 
int h; 
short b; 
char 这 ; 
char :未 - 

上 aes 

得 到 的 偏 移 量 如 下 : 





这 个 结构 要 填充 4 个 字 节 以 满足 8 字 节 对 齐 的 要 求 ， 所 以 总 共 是 40 个 字 节 。 
3. 46 这 个 问题 覆盖 的 话题 比较 广泛 ， 例 如 栈 帧 、 字 符 串 表示 、ASCII 码 和 字 节 顺序 。 它 说 明了 越界 的 
内 存 引用 的 危险 性 ， 以 及 缓冲 区 溢出 背后 的 基本 思想 。 
A. 执行 了 第 3 行 后 的 栈 : 


00 00 00 00 00 40 00 76| 返 回 值 
01 23 45 67 89 AB CD EF | 保存 的 %rbx 
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B. 执行 了 第 5 行 后 的 栈 : 












i bi 
人 


C. 这 个 程序 试图 返回 到 地 址 0x040034。 低 位 2 字 节 被 字符 ‘4? 和 结尾 的 空 (null) 字 符 覆 盖 了 。 

D. 寄存 器 gsrbx 的 保存 值 被 设置 为 0x3332313039383736。 在 get line 返回 前 ， 这 个 值 会 被 加 载 
回 这 个 寄存 器 中 。 

E. 对 malloc 的 调用 应 该 以 strlen (buf)+ 1 作为 它 的 参数 ， 而 且 代 码 还 应 该 检查 返回 值 是 否 为 
NULL。 

A. 这 对 应 于 大 约 2 个 地 址 的 范围 。 

B. 每 次 尝试 ， 一 个 128 字 节 的 空 操作 sled 会 覆盖 2 个 地 址 ， 因 此 我 们 只 需要 2 ==64 次 尝试 。 

这 个 例子 明确 地 表明 了 这 个 版 本 的 Linux 中 的 随机 化 程度 只 能 很 小 地 阻挡 溢出 攻击 。 

这 道 题 让 你 看 看 x86-64 代码 如 何 管理 栈 ， 也 让 你 更 好 地 理解 如 何 防卫 缓冲 区 溢出 攻击 。 

A. 对 于 没有 保护 的 代码 ， 第 4 行 和 第 5 行 计 算 v 和 buf 的 地 址 为 相对 于 grsp 偏 移 量 为 24 和 0。 
在 有 保护 的 代码 中 ， 金 丝 雀 被 存放 在 偏 移 量 为 40 的 地 方 (第 4 行 )， 而 v 和 buf 在 偏 移 量 为 8 
和 16 的 地 方 ( 第 7 行 和 第 8 行 )。 

B. 在 有 保护 的 代码 中 ， 局 部 变量 v 比 buf 更 靠近 栈 顶 ， 因 此 buf 溢出 就 不 会 破坏 v 的 值 。 

这 段 代 码 中 包含 许多 我 们 已 经 见 到 过 的 执行 位 级 运算 的 技巧 。 要 仔细 研究 才能 看 得 懂 。 

A. 第 5 行 的 leaq 指令 计算 值 8" 十 22， 然 后 第 6 行 的 andg 指令 把 它 向 下 伟人 到 最 接近 的 16 的 倍 
数 。 当 nn 是 奇数 时 ， 结 果 值 会 是 8n 十 8， 当 是 偶数 时 ， 结果 值 会 是 8 十 16， 这 个 值 减 去 5 就 
得 到 S2 ob 

B. 该 序列 中 的 三 条 指令 将 会 人 到 最 近 的 8 的 倍数 。 它 们 利用 了 2. 3.7 节 中 实现 除 以 2 的 军用 到 
的 偏 移 和 移 位 的 组 合 。 

C. 这 两 个 例子 可 以 看 做 最 小 化 和 最 大 化 e 和 e; 的 情况 。 


返回 值 
保存 的 和 rbx 





51 $7 


2065 2017 
2064 2000 


D. 可 以 看 到 sz 的 计算 方式 会 保留 si 的 偏 移 量 为 最 接近 的 16 的 倍数 。 还 可 以 看 到 p 会 以 8 的 倍数 
对 齐 ， 正 是 对 8 字 节 元 素数 组 建议 使 用 的 。 

这 道 题 要 求 你 仔细 检查 代码 ， 小 心 留意 使 用 的 转换 和 数据 传送 指令 。 可 以 看 到 取出 的 值 和 转换 的 

情况 如 下 : 

@ 取出 位 于 dp 的 值 ， 转 换 成 int( 第 4 行 )， 再 存储 到 ip。 因 此 可 以 推断 出 vall 是 a。 

@ 取出 位 于 ip 的 值 ， 转 换 成 float( 第 6 行 )， 再 存储 到 fp。 因 此 可 以 推断 出 val2 是 i。 

@ 1 的 值 被 转换 成 double( 第 8 行 )， 并 存储 在 dp。 因此 可 以 推断 出 val3 是 1。 

9 第 3 行 上 取出 位 于 fp 的 值 。 第 10 和 11 行 的 两 条 指令 把 它 转换 为 双 精 度 ， 值 通过 寄存 器 xmm0 
返回 。 因 此 可 以 推断 出 valL4 是 f。 

可 以 通过 从 图 3-47 和 图 3-48 中 选择 适当 的 条 目 或 者 使 用 在 浮 点 格式 间 转 换 的 代码 序列 来 处 理 这 

些 情况 。 





long double vcvtsi2sdqg $%rdi,%xmm0, SxmmO0 


double int vevttsd2si $sxmm0, Seax 


double float vunpcklpd %xmm0, %xmm0,%$%SxmmoO 


vevtpd2ps $%xmm0,%xmmO0 
long float vctsi2ssqg %rdi,%®xmm0, SxmmO0 


float long vecvttss2siq $$xmm0,$Srax 
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映射 参数 到 寄存 器 的 基本 规则 非常 简单 (虽然 随 着 有 更 多 类 型 的 参数 出 现 ， 这 些 规则 也 变 得 越 来 越 
复杂 [L77J)。 
A. double gi(double a, long b, float c，int dl) ; 
寄存 器 : a 在 $xmm0 中 ，b 在 %$rdi 中 ，c 在 $xmml 中 ，d 在 和 % esi 中 
B. double g2(int a, double *b, float *c, long d); 


寄存 器 ; a 在 %edi 中 , b 在 %rsi 中 , c 在 %rdx 中 ,，d 在 rcx 中 


C. double g3(double *a, double b, int c¢, float d); 


寄存 器 : a 在 $rdi 中 ，b 在 $xmm0 中 ，c 在 $ esi 中 ，4d 在 $xmml 中 
D., double g4(float a, int *b, float c, double d); 
寄存 器 : a 在 $xmm0 中 ，b 在 $rdi 中 ，c 在 $xmml 中 ，d 在 %xmm2 中 
从 这 段 汇 编 代码 可 以 看 出 有 两 个 整数 参数 ， 通 过 寄存 器 %rdi 和 srsi 传递 ， 将 其 命名 为 i1 和 i2。 
类 似 地 ， 有 两 个 浮 点 参数 ， 通 过 寄存 器 $xmm0 和 gxmml 传递 ， 将 其 命名 为 全 和 f2。 
然后 给 汇编 代码 加 注释 : 


Rerfer to arguments as i1 (Xrdi), i2 (Xesi) 
f1 (Xxmm0), and ff2 (%xmmi) 


double functi(argl_t p, arg2_t gq, arg3_t r, arg4d_t 5) 


1 functil : 

2 VcVvtsi2ssdq hkTSiI hxmm2, %xmm2 Get i2 and convert from long to float 
3 vaddss %xmm0, %xmm2, %xmm0 Add f1 (type float) 

4 vcvtsi2ss Wedi, hxmm2, %hxmm2 Get il and convert from int to float 
5 vdivss hxmmO0, hxmm2, hxmmO Compute il / (i2 + f1) 

6 vunpcklps hxmmO, hxmmO, hxmmO 

7 vecvtps2pd hxmmO , hxmmO Convert to double 

8 vsubsd %xmmlil, %xmmO0, %xmmO Compute il / (i2 + fi) - f2 (double) 
9 ret 


由 此 可 以 看 出 这 段 代码 计算 值 i1/ (i2+f1)-f2。 还 可 以 看 到 ，i1 的 类 型 为 int，i2 的 类 型 为 
long，f1 的 类 型 为 float， 而 f2 的 类 型 为 double。 将 参数 匹配 到 命名 的 值 只 有 一 个 不 确定 的 地 
方 ， 来自 于 加 法 的 交换 性 一 一 得 到 两 种 可 能 的 结果 : 


double functla(int p, float q, long r, double s); 
double functib(lint p, long q, float r, double s); 


一 步 步 梳理 汇编 代码 ， 确 定 每 一 步 计 算 什么 ， 就 很 容易 找到 这 道 题 的 答案 ， 如 下 面 的 注释 所 示 : 
double funct2(double w; int x; float y,; long 2) 
Ww in KxmmO0, x in Kedi, y in xmml, z ID Yrsi 

1 funct2: 

2 vecvtsi2ss Wedi, %xmm2, %xmm2 Convert x to float 

3 vmulss “xmmil, %xmm2, %hxmmi Multiply by y 

4 vunpcklps Vxmml, Wxmmi, %xmml 

5 vevtps2pd hxmml1 ， %xmm2 Convert x*y to double 

6 vevtsi2sdq Wrsi, %xmmi1, %xmml Convert z to double 

7 vdivsd ‘%xmmil, %xmmO, “xmmO Compute w/z 

8 vsubsd hxmmO0, %xmm2, %xmmO Subtract from x*y 

9 ret Return 


可 以 从 分 析 得 出 结论 ， 该 函数 计算 y*x-w/z。 
这 道 题 使 用 的 推理 与 推断 标号 .Lc2 处 声明 的 数字 是 1. 8 的 编码 一 样 ， 不 过 例子 更 简单 。 

我 们 看 到 两 个 值 分 别 是 0 和 1077936128(0x40400000)。 从 高 位 字 节 可 以 抽取 出 指数 字段 
0x404(1028)， 减 去 偏 移 量 1023 得 到 指数 为 5。 连接 两 个 值 的 小 数位 ， 得 到 小 数字 段 为 0， 加 上 隐 
含 的 开头 的 1， 得 到 1.0。 因 此 这 个 常数 是 1. 0X2”=32. 0。 

A, 在 此 可 以 看 到 从 地 址 .Lcl 开始 的 16 个 字 节 是 一 个 掩 码 ， 它 的 低 8 个 字 节 是 全 1， 除 了 最 高 位 ， 

这 是 双 精 度 值 的 符号 位 。 计 算 这 个 掩 码 和 sxmm0 的 AND 值 时 ， 会 清除 x 的 符号 位 ， 得 到 绝对 
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值 。 实 际 上 ， 定 义 EXPR (x) 为 fabs (x) 就 能 得 到 这 段 代 码 ，fabs 是 在 < math.h> 中 定义 的 。 
可 以 看 到 vxorpda 指 令 将 整个 寄存 器 设置 为 0， 所 以 这 是 一 种 产生 浮 点 常数 0. 0 的 方法 。 


. 可 以 看 到 从 地 址 .LC2 开始 的 16 个 字 节 是 一 个 掩 码 ， 它 只 有 一 个 1 位 ,位 于 XMM 寄存 器 中 低 


位 数值 的 符号 位 。 计 算 这 个 掩 码 与 $xmmo0 的 EXCLUSIVE 一 OR 值 时 ， 会 改变 x 符号 的 值 ， 计 


算出 表达 式 -x。 


同样 地 ， 为 代码 加 注释 ,包括 处 理 条 件 分 支 : 


double fiunct3(int *ap, doubie b, long c, float *adp) 


a in %rdi, b in %xmm0, €¢ in rsi, dp ip %rdx 
funct3: 


vmovss (%rdx), %xmml 


vecvtsi2sd (%rdi), %xmm2, %xmm2 
vucomisd %xmm2, %xmmO 
jbe .L8 
vcvtsi2ssqg Wrsi, %xmmO, %xmmO 
vmulss Wxmml, %xmm0O, %xmml 
vunpcklps xmmil, Wxmmi, “xmml 
vevtps2pd hxmm1, %xmmO 
ret 

E98: 
vaddss %xmmil, %xmml, %xmml 


Vcvtsi2ssq Wrsi, %xmmO, WhxmmO 
vaddss %xmmil, %xmmO0, %xmmO 


vunpcklps XxmmO0, XxmmO0, %xmmO 
vcvtps2pd %XmmO ,hxmmO 
ret 


由 此 ， 可 以 写 出 funct3 的 代码 如 下 : 
double funct3(int *ap, double b, long c, float *dp) { 


int a = *ap; 
float d = *dp; 
《< 币 》 
return c*d; 
else 
return c+2*d; 


Get d = *dp 

Get a = *ap and convert to double 
Compare b:a 

If <=, goto lesseq 

Convert C to fioat 

Muitiply by da 


Convert to double 


Return 


lesseq: 


Compute d+d = 2.0 *d 
Convert CC to float 


Compute C + 2*d 


Convert to doubie 


Retirn 


第 4 章 
C H A 忆 下 E R 二 


处 理 背 体系 结构 


现代 微 处 理 融 可 以 称 得 上 是 人 类 创造 出 的 最 复杂 的 系统 之 一 。 一 块 手 指甲 大 小 的 硅 片 
上 ， 可 以 容纳 一 个 完整 的 高 性 能 处 理 硕 、 大 的 高 速 缓 存 ， 以 及 用 来 连接 到 外 部 设备 的 逻辑 
电路 。 从 性 能 上 来 说 ,今天 在 一 块 沪 片上 实现 的 处 理 器 已 经 使 20 年 前 价值 1000 万 美元 、 
房间 那么 大 的 超级 计算 机 相形 见 绀 了 。 即 使 是 在 像 手 机 、 导 航 系统 和 可 编程 恒温 器 这 样 的 
日 常设 备 中 的 舱 入 式 处 理 右 ， 也 比 早期 计算 机 开发 者 所 能 想到 的 强大 得 多 。 

到 目前 为 止 ， 我 们 看 到 的 计算 机 系统 只 限于 机 器 语言 程序 级 。 我 们 知道 处 理 器 必须 执 
行 一 系列 指令 ， 每 条 指令 执行 某 个 简单 操作 ， 例 如 两 个 数 相 加 。 指 令 被 编码 为 由 一 个 或 多 
个 字 节 序列 组 成 的 二 进 制 格 式 。 一 个 处 理 器 文 持 的 指令 和 指令 的 字 节 级 编码 称 为 它 的 指令 
集体 系 结构 (Instruction-Set Architecture，ISA)。 不 同 的 处 理 器 “家 族 ”， 例 如 Intel IA32 
和 x86-64、IBM/Freescale Power 和 ARM 处 理 器 家 族 ， 都 有 不 同 的 IJSA。 一 个 程序 编译 
成 在 一 种 机 器 上 运行 ， 就 不 能 在 另 一 种 机 器 上 运行 。 另 外 ， 同 一 个 家 族 里 也 有 很 多 不 同型 
号 的 处 理 磊 。 虽 然 每 个 三 商 制 造 的 处 理 器 性 能 和 复杂 性 不 断 提高 ， 但 是 不 同 的 型 号 在 ISA 
级 别 上 都 保持 着 兼容 。 一 些 常 见 的 处 理 器 家 族 ( 例 如 x86-64) 中 的 处 理 器 分 别 由 多 个 厂商 提 
供 。 因 此 ，ISA 在 编译 器 编写 者 和 处 理 器 设计 人 员 之 间 提 供 了 一 个 概念 抽象 层 ， 编 译 器 编 
写 者 只 需要 知道 允许 哪些 指令 ， 以 及 它们 是 如 何 编码 的 ; 而 处 理 右 设计 者 必须 建造 出 执行 
这 些 指令 的 处 理 器 。 

本 章 将 简要 介绍 处 理 器 硬件 的 设计 。 我 们 将 研究 一 个 硬件 系统 执行 某 种 ISA 指令 的 方 
式 。 这 会 使 你 能 更 好 地 理解 计算 机 是 如 何 工 作 的 ， 以 及 计算 机 制造 商 们 面临 的 技术 挑战 。 
一 个 很 重要 的 概念 是 ， 现 代 处 理 需 的 实际 工作 方式 可 能 跟 ISA 隐 含 的 计算 模型 大 相 径 庭 。 
ISA 模型 看 上 去 应 该 是 顺序 指令 执行 ， 也 就 是 先 取 出 一 条 指令 ， 等 到 它 执行 完毕 ， 再 开始 
下 一 条 。 然 而 ， 与 一 个 时 刻 只 执行 一 条 指令 相 比 ， 通 过 同时 处 理 多 条 指令 的 不 同 部 分 ， 处 
理 需 可 以 获得 更 高 的 性 能 。 为 了 保证 处 理 需 能 得 到 同 顺 序 执行 相同 的 结果 ， 人 们 采用 了 一 
些 特殊 的 机 制 。 在 计算 机 科学 中 ， 用 巧妙 的 方法 在 提高 性 能 的 同时 又 保持 一 个 更 简单 、 更 
抽象 模型 的 功能 ， 这 种 思想 是 众所周知 的 。 在 Web 浏览 器 或 平衡 二 叉 树 和 蛤 希 表 这 样 的 
信息 检索 数据 结构 中 使 用 缓存 ， 就 是 这 样 的 例子 。 

你 很 可 能 永远 都 不 会 自己 设计 处 理 器 。 这 是 专家 们 的 任务 ， 他 们 工作 在 全 球 不 到 100 
家 的 公司 里 。 那 么 为 什么 你 还 应 该 了 解 处 理 器 设计 呢 ? 

@ 从 智力 方面 来 说 ， 处 理 器 设计 是 非常 有 趣 而 且 很 重要 的 。 学 习 事 物 是 怎样 工作 的 

有 其 内 在 价值 。 了 解 作 为 计算 机 科学 家 和 工程 师 日 常生 活 一 部 分 的 一 个 系统 的 内 
部 工作 原理 (特别 是 对 很 多 人 来 说 这 还 是 个 谜 ) ， 是 件 格外 有 趣 的 事情 。 处 理 器 设 
计 包 括 许 多 好 的 工程 实践 原理 。 它 需要 完成 复杂 的 任务 ， 而 结构 又 要 尽 可 能 简单 
和 规则 。 

9 理解 处 理 器 如 何 工作 能 帮助 理解 整个 计算 机 系统 如 何 工 作 。 在 第 6 章 ， 我 们 将 讲述 

存储 髓 系统 ， 以 及 用 来 创建 很 大 的 内 存 映 像 同 时 又 有 快速 访问 时 间 的 技术 。 看 看 处 
理 器 端的 处 理 器 一 一 内 存 接口 ， 会 使 那些 讲述 更 加 完整 。 
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@ 虽然 很 少 有 人 设计 处 理 器 ， 但 是 许多 人 设计 包含 处 理 器 的 硬件 系统 。 将 处 理 器 骨 入 
到 现实 世界 的 系统 中 ， 如 汽车 和 家 用 电器 ， 已 经 变 得 非常 普通 了 。 般 入 式 系 统 的 设 
计 者 必须 了 解 处 理 句 是 如 何 工作 的 ， 因 为 这 些 系 统 通常 在 比 困 面 和 基于 服务 器 的 系 
统 更 低 抽 象 级 别 上 进行 设计 和 编程 。 

e@ 你 的 工作 可 能 就 是 处 理 器 设计 。 虽 然 生 产 处 理 静 的 公司 很 少 ,， 但 是 研究 处 理 胡 的 设 
计 人 员 队 伍 已 经 非常 巨大 了 ， 而 且 还 在 壮大 。 一 个 主要 的 处 理 胡 设计 的 各 个 方面 大 
约 涉 及 1000 多 人 。 

本 章 首 先 定义 一 个 简单 的 指令 集 ， 作 为 我 们 处 理 器 实现 的 运行 示例 。 因 为 受 x86-64 
指令 集 的 启发 ， 它 被 俗称 为 “x86”， 所 以 我 们 称 我 们 的 指令 集 为 “Y86-64” 指 令 集 。 与 
x86-64 相 比 ，Y86-64 指令 集 的 数据 类 型 、 指 令 和 寻 址 方式 都 要 少 一 些 。 它 的 字 节 级 编码 
也 比较 简单 ， 机 器 代码 没有 相应 的 x86-64 代码 紧凑 ， 不 过 设计 它 的 CPU 详 码 逻辑 也 要 人 简 
单一 些 。 虽 然 Y86-64 指令 集 很 简单 ， 它 仍然 足够 完整 ， 能 让 我 们 写 一 些 处 理 整 数 的 程序 。 
设计 一 个 实现 Y86-64 的 处 理 器 要 求 我 们 解决 许多 处 理 锅 设计 者 同样 会 面 对 的 问题 。 

接 下 来 会 提供 一 些 数字 硬件 设计 的 背景 。 我 们 会 描述 处 理 器 中 使 用 的 基本 构件 块 ， 以 
及 它们 如 何 连 接 起 来 和 操作 。 这 些 介绍 是 建立 在 第 2 章 对 布尔 代数 和 位 级 操作 的 讨论 的 基 
础 上 的 。 我 们 还 将 介绍 一 种 描述 人 硬件 系统 控制 部 分 的 简单 语言 ，HCL (Hardware Control 
Language， 硬 件 控制 语言 )。 然 后 ， 用 它 来 描述 我 们 的 处 理 器 设计 。 即 使 你 已 经 有 了 一 些 
逻辑 设计 的 背景 知识 ， 也 应 该 读 读 这 个 部 分 以 了 解 我 们 的 特殊 符号 表示 方法 。 

作为 设计 处 理 需 的 第 一 步 ， 我 们 给 出 一 个 基于 顺序 操作 、 功 能 正确 但 是 有 点 不 实用 的 
Y86-64 处 理 器 。 这 个 处 理 顺 每 个 时 钟 周期 执行 一 条 完整 的 Y86-64 指令 。 所 以 它 的 时 钟 必 
须 足 够 慢 ， 以 允许 在 一 个 周期 内 完成 所 有 的 动作 。 这 样 一 个 处 理 需 是 可 以 实现 的 ， 但 是 它 
的 性 能 远 远 低 于 同样 的 硬件 应 该 能 达到 的 性 能 。 

以 这 个 顺序 设计 为 基础 ， 我 们 进行 一 系列 的 改造 ， 创 建 一 个 流水 线 化 的 处 理 器 (pipe- 
lined processor) 。 这 个 处 理 器 将 每 条 指令 的 执行 分 解 成 五 步 ， 每 个 步骤 由 一 个 独立 的 硬件 
部 分 或 阶段 (stage) 来 处 理 。 指 令 步 经 流水 线 的 各 个 阶段 ， 且 每 个 时 钟 周期 有 一 条 新 指令 进 
和 流水线。 所 以 ， 处 理 器 可 以 同时 执行 五 条 指令 的 不 同 阶段 。 为 了 使 这 个 处 理 器 保留 
Y86-64 ISA 的 顺序 行为 ， 就 要 求 处 理 很 多 冒险 或 冲突 (hazard) 情 况 ， 冒 险 就 是 一 条 指令 的 
位 置 或 操作 数 依赖 于 其 他 仍 在 流水 线 中 的 指令 。 

我 们 设计 了 一 些 工具 来 研究 和 测试 处 理 器 设计 。 其 中 包括 Y86-64 的 汇编 器 、 在 你 的 机 
器 上 运行 Y86-64 程序 的 模拟 器 ， 还 有 针对 两 个 顺序 处 理 兢 设计 和 一 个 流水 线 化 处 理 器 设计 
的 模拟 器 。 这 些 设 计 的 控制 逻辑 用 HCL 符号 表示 的 文件 描述 。 通 过 编辑 这 些 文件 和 重新 编 
译 模 拟 器 ， 你 可 以 改变 和 扩展 模拟 器 行为 。 我 们 还 提供 许多 练习 ， 包 括 实现 新 的 指令 和 修改 
机 器 处 理 指 令 的 方式 。 还 提供 测试 代码 以 帮助 你 评价 修改 的 正确 性 。 这 些 练习 将 极 大 地 帮助 
你 理解 所 有 这 些 内 容 ， 也 能 使 你 更 理解 处 理事 设计 者 面临 的 许多 不 同 的 设计 选择 。 

网 络 旁 注 ARCH:VLOG 给 出 了 用 Verilog 硬件 描述 语言 描述 的 流水 线 化 的 Y86-64 处 
理 器 。 其 中 包括 为 基本 的 硬件 构建 块 和 整个 的 处 理 器 结构 创建 模块 。 我 们 上 自动 地 将 控制 多 
辑 的 HCL 描述 翻译 成 Verilog。 首 先 用 我 们 的 模拟 右 调 试 HCL 描述 ， 能 消除 很 多 在 硬件 
设计 中 会 出 现 的 杯 手 的 问题 。 给 定 一 个 Verilog 描述 ， 有 商业 和 开源 工具 来 支持 模拟 和 加 
辑 合 成 (logic synthesis) ， 产 生 实 际 的 微 处 理 需 电路 设计 。 因 此 ， 虽 然 我 们 在 此 花费 大 部 
分 精力 创建 系统 的 图 形 和 文字 描述 ， 写 软件 的 时 候 也 会 花费 同样 的 精力 ， 但 是 这 些 设计 能 
够 自动 地 合成 ， 这 表明 我 们 确实 在 创建 一 个 能 够 用 硬件 实现 的 系统 。 
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4. 1 Y86-64 指令 集体 系 结构 


定义 一 个 指令 集体 系 结 构 ( 例 如 Y86-64) 包 括 定 义 各 种 状态 单元 、 指 令 集 和 它们 的 编 
码 、 一 组 编程 规范 和 异常 事件 处 理 。 


4. 1. 1 程序 员 可 见 的 状态 


如 图 4-1 所 示 ，Y86-64 程序 中 的 每 条 指令 都 会 读 取 或 修改 处 理 器 状态 的 某 些 部 分 。 这 
称 为 程序 员 可 见 状态 ， 这 里 的 “程序 员 ” 既 可 以 是 用 汇编 代码 写 程 序 的 人 ， 也 可 以 是 产生 
机 玫 级 代码 的 编译 器 。 在 处 理 器 实现 中 ， 只 要 RF. 程序 寄存 器 
我 们 保证 机 响 级 程序 能 够 访问 程序 员 可 见 状 
态 ， 就 不 需要 完全 按照 ISA 暗示 的 方式 来 表示 
和 组 织 这 个 处 理 器 状态 。Y86-64 的 状态 类 似 
于 x86-64。 有 15 个 程序 寄存 器 :%rax、%rcx、% 
rdx、Srbx,%Srsp、$rbp、$Srsi、%rdi 和 %r8 到 | 
sr14。( 我 们 省 略 了 x86-64 的 寄存 器 sr15 以 简 。 Cc: 条 件 码 
化 指令 的 编码 ,) 每 个 程序 寄存 器 存储 一 个 64 志和 
位 的 字 。 寄 存 器 srsp 被 入 栈 、 出 栈 、 调 用 和 Td 
返回 指令 作为 栈 指针 。 除 此 之 外 ， 寄 存 需 没有 - 


人 有 3 个 一 位 的 条 件 码 ， 图 41 Y86-64 程序 员 可 见 状态 。 同 x86-64 一 
固定 的 含义 或 固定 值 。 有 3 个 一 位 的 条 件 码 eat ee 





ZF、SF 和 OF， 它们 保存 着 最 近 的 算术 或 逻辑 序 寄存 器 、 条 件 码 、 程 序 计 数 器 (PC) 
指令 所 造成 影响 的 有 关 信 息 。 程 序 计数 项 (PC) 和 内 存 。 状 态 码 指明 程序 是 否 运行 正 
存放 当前 正在 执行 指令 的 地 址 。 常 ， 或 者 发 生 了 茶 个 特殊 事件 


内 存 从 概念 上 来 说 就 是 一 个 很 大 的 字 节 数组 ,保存 着 程序 和 数据 。Y86-64 程序 用 虚 
拟 地 址 来 引用 内 存 位 置 。 硬 件 和 操作 系统 软件 联合 起 来 将 虚拟 地 址 翻译 成 实际 或 物理 地 
址 ， 指 明 数 据 实际 存在 内 存 中 哪个 地 方 。 第 9 章 将 更 详细 地 研究 虚拟 内 存 。 现 在 ， 我 们 只 
认为 虚拟 内 存 系统 向 Y86-64 程序 提供 了 一 个 单一 的 字 节 数组 映像 。 

程序 状态 的 最 后 一 个 部 分 是 状态 码 stat， 它 表明 程序 执行 的 总 体 状态 。 它 会 指示 是 
正常 运行 ， 还 是 出 现 了 某 种 异常 ， 例 如 当 一 条 指令 试图 去 读 非 法 的 内 存 地 址 时 。 在 4. 1.4 
节 中 会 讲述 可 能 的 状态 码 以 及 异常 处 理 。 


4. 1. 2 Y86-64 指令 


图 4-2 给 出 了 Y86-64 ISA 中 各 个 指令 的 简单 描述 。 这 个 指令 集 就 是 我 们 处 理 器 实现 
的 目标 。Y86-64 指令 集 基 本 上 是 x86-64 指令 集 的 一 个 子 集 。 它 只 包括 8 字 节 整数 操作 ， 
寻 址 方式 较 少 ， 操 作 也 较 少 。 因 为 我 们 只 有 8 字 节 数据 ， 所 以 称 之 为 “ 字 (word)” 不 会 有 
任何 歧义 。 在 这 个 图 中 ， 左 边 是 指令 的 汇编 码 表 示 ， 右 边 是 字 节 编码 。 图 4-3 给 出 了 其 中 
一 些 指令 更 详细 的 内 容 。 汇 编 代码 格式 类 似 于 x86-64 的 ATT 格式 。 
下 面 是 Y86-64 指令 的 一 些 细 市 。 
@ x86-64 的 movq 指令 分 成 了 4 个 不 同 的 指令 ; irmovq、rrmovq、mrmovq 和 rmmovaq， 
分 别 显 式 地 指明 源 和 目的 的 格式 。 源 可 以 是 立即 数 (i)、 寄 存 器 (r) 或 内 存 (m)。 指 令 
名 字 的 第 一 个 字母 就 表明 了 源 的 类 型 。 目 的 可 以 是 寄存 器 (r) 或 内 存 (m)。 指 令 名 字 的 
第 二 个 字母 指明 了 目的 的 类 型 。 在 决定 如 何 实现 数据 传送 时 ， 显 式 地 指明 数据 传送 的 
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这 4 种 类 型 是 很 有 帮助 的 。 

两 个 内 存 传送 指令 中 的 内 存 引用 方式 是 简单 的 基 址 和 偏 移 量 形式 。 在 地 址 计算 
中 ， 我 们 不 支持 第 二 变 址 寄存 器 (second index register) 和 任何 寄存 器 值 的 伸缩 
(Cscaling) 。 

同 x86-64 一 样 ， 我 们 不 允许 从 一 个 内 存 地 址 直接 传送 到 男 一 个 内 存 地 址 。 男 
外 ， 也 不 允许 将 立即 数 传 送 到 内 存 。 

e 有 4 个 整数 操作 指令 ， 如 图 4-2 中 的 oPq。 它 们 是 addq、subq、andgq 和 xcorq。 它 
们 只 对 寄存 需 数 据 进行 操作 ， 而 x86-64 还 允许 对 内 存 数据 进行 这 些 操作 。 这 些 指令 
会 设置 3 个 条 件 码 ZF、SF 和 OF( 零 、 符 号 和 溢出 ) 。 

e 7 个 跳 转 指令 (图 4-2 中 的 jXX) 是 jmp、jle、j1l1、je、jne、jge 和 jg。 根据 分 支 
指令 的 类 型 和 条 件 代 码 的 设置 来 选择 分 支 。 分 支 条 件 和 x86-64 的 一 样 ( 见 图 3-15) 。 

e 有 6 个 条 件 传送 指令 (图 4-2 中 的 cmovXX): cmovle、cmovl、cmove、cmovne、 
cmovge 和 cmovg。 这 些 指令 的 格式 与 寄存 器 -寄存 器 传送 指令 rrmovq 一 样 ， 但 是 
只 有 当 条 件 码 满足 所 需要 的 约束 时 ， 才 会 更 新 目的 寄存 器 的 值 。 

e@ call 指令 将 返回 地 址 人 栈 ， 然 后 跳 到 目的 地 址 。ret 指令 从 这 样 的 调用 中 返回 。 

© pushd 和 popq 指令 实现 了 和 人 栈 和 出 栈 ， 就 像 在 x86-64 中 一 样 。 

e halt 指令 停止 指令 的 执行 。x86-64 中 有 一 个 与 之 相当 的 指令 hlt。x86-64 的 应 用 
程序 不 允许 使 用 这 条 指令 ， 因 为 它 会 导致 整个 系统 暂停 运行 。 对 于 Y86-64 来 说 ， 
执行 halt 指令 会 导致 处 理 器 停止 ， 并 将 状态 码 设置 为 HLT( 人 参见 4.1.4 节 )。 


0 


rrmovg rA, rB 

irmovg V, rB ET EE EC | 
rmmovg rA, D(rB) 
mrmova D(rB), rA 


OPqg rA, rB 

jxx Dest 
cmovXx rA, rB 

ret 

pusha IA 





图 4-2 Y86-64 指令 集 。 指 令 编 码 长 度 从 1 个 字 节 到 10 个 字 节 不 等 。 一 条 指令 含有 一 个 单字 节 的 
指令 指示 符 ， 可 能 含有 一 个 单字 节 的 寄存 器 指示 符 ， 还 可 能 含有 一 个 8 字 节 的 常数 字 。 字 段 fn 
指明 是 某 个 整数 操作 (OPq)、 数 据 传送 条 件 (cmovxXX) 或 是 分 支 条 件 (jXx)。 所 有 的 数值 都 
用 十 六 进 制 表示 


4. 1.3 指令 编码 


图 4-2 还 给 出 了 指令 的 字 节 级 编码 。 每 条 指令 需要 1 一 10 个 字 节 不 等 ， 这 取决 于 需要 
哪些 字段 。 每 条 指令 的 第 一 个 字 节 表明 指令 的 类 型 。 这 个 字 节 分 为 两 个 部 分 ,每 部 分 4 
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位 : 高 4 位 是 代码 (code) 部 分 ， 低 4 位 是 功能 (function) 部 分 。 如 图 4-2 所 示 ， 代 码 值 为 
0 一 0xB。 功 能 值 只 有 在 一 组 相关 指令 共用 一 个 代码 时 才 有 用 。 图 4-3 给 出 了 整数 操作 、 分 
支 和 条 件 传送 指令 的 具体 编码 。 可 以 观察 到 ，rrmovq 与 条 件 传 送 有 同样 的 指令 代码 。 可 
以 把 它 看 作 是 一 个 “无 条 件 传送 ”， 就 好 像 jmp 指令 是 无 条 件 跳 转 一 样 ， 它 们 的 功能 代码 
都 是 0。 


整数 操作 指令 分 支 指令 传送 指令 
adda jmp jne rrmova| 2 | o | cmovne 
suba jle jge cmovle| 2 | 1 | cmovse 
anaa | 6 [2 | jl jg |7|6 cmovl cmovg 
xora| 6 13 | je cmove 


到 4-3 Y86-64 指令 集 的 功能 码 。 这 些 代 码 指 明 是 某 个 整数 操作 、 分 支 条 件 还 是 数据 传送 
条 件 。 这 些 指 令 是 图 4-2 中 所 示 的 OPq、jXX 和 cmovXX 


如 图 4-4 所 示 ，15 个 程序 寄存 器 中 每 个 都 有 一 个 相对 应 的 范围 在 0 到 0xE 之 间 的 寄存 
器 标识 符 (register ID)。Y86-64 中 的 寄存 器 编号 跟 x86-64 中 的 相同 。 程 序 寄存 器 存在 
CPU 中 的 一 个 寄存 器 文件 中 ， 这 个 寄存 器 文件 就 是 一 个 小 的 、 以 寄存 器 ID 作为 地 址 的 随 
机 访问 存储 器 。 在 指令 编码 中 以 及 在 我 们 的 硬件 设计 中 ， 当 需要 指明 不 应 访问 任何 寄存 器 
时 ， 就 用 ID 值 0xF 来 表示 。 


5 TE 
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图 4-4 Y86-64 程序 寄存 器 标识 符 。15 个 程序 寄存 器 中 每 个 都 有 一 个 相对 应 的 标识 符 (ID)， 范 围 为 
0 一 0xE。 如 果 指 令 中 某 个 寄存 器 字段 的 ID 值 为 0xF， 就 表明 此 处 没有 寄存 器 操作 数 


有 的 指令 只 有 一 个 字 节 长 ， 而 有 的 需要 操作 数 的 指令 编码 就 更 长 一 些 。 首 先 ， 可 能 有 
附加 的 寄存 器 指示 符 字 节 (register specifier byte) ， 指 定 一 个 或 两 个 寄存 器 。 在 图 4-2 中 ， 
这 些 寄 存 器 字段 称 为 rA 和 rB。 从 指令 的 汇编 代码 表示 中 可 以 看 到 ， 根 据 指 令 类 型 ， 指 令 
可 以 指定 用 于 数据 源 和 目的 的 寄存 器 ， 或 是 用 于 地 址 计算 的 基 址 寄存 器 。 没 有 寄存 器 操作 
数 的 指令 ， 例 如 分 支 指 令 和 call 指令 ， 就 没有 寄存 器 指示 符 字 节 。 那 些 只 需要 一 个 寄存 
锋 操 作 数 的 指令 (irmovq、pushq 和 popq) 将 男 一 个 寄存 器 指示 符 设 为 0xF。 这 种 约定 在 
我 们 的 处 理 器 实现 中 非常 有 用 。 

有 些 指 令 需 要 一 个 附加 的 4 字 节 常数 字 (constant word) 。 这 个 字 能 作为 irmovgq 的 立 
即 数 数据 ，rmmovq 和 mrmovq 的 地 址 指示 符 的 偏 移 量 ， 以 及 分 支 指 令 和 调用 指令 的 目的 
地 址 。 注 意 ， 分 支 指令 和 调用 指令 的 目的 是 一 个 绝对 地 址 ， 而 不 像 IA32 中 那样 使 用 PC 
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(程序 计数 器 ) 相 对 寻 址 方式 。 处 理 器 使 用 PC 相对 寻 址 方式 ， 分 支 指令 的 编码 会 更 简洁 ， 
同时 这 样 也 能 允许 代码 从 内 存 的 一 部 分 复制 到 另 一 部 分 而 不 需要 更 新 所 有 的 分 支 目 标 地 
址 。 因 为 我 们 更 关心 描述 的 简单 性 ， 所 以 就 使 用 了 绝对 寻 址 方式 。 同 IA32 一 样 ， 所 有 整 
数 采用 小 端 法 编码 。 当 指令 按照 反 汇 编 格式 书写 时 ， 这 些 字 市 就 以 相反 的 顺序 出 现 。 
例如 ， 用 十 六 进 制 来 表示 指令 rmmovgq srsp，0x123456789abcd (%rdx) 的 字 节 编码 。 
从 图 4-2 我 们 可 以 看 到 ，rmmovg 的 第 一 个 字 节 为 40。 源 寄存 器 $$rsp 应 该 编码 放 在 rA 
字段 中 ， 而 基 址 寄存 器 $rdx 应 该 编码 放 在 rB 字段 中 。 根 据 图 4-4 中 的 寄存 器 编号 ， 我 
们 得 到 寄存 器 指示 符 字 市 42。 最 后 ， 偏 移 量 编码 放 在 8 字 市 的 常数 字 中 。 和 月 先 在 
0x123456789abcad 的 前 面 填充 上 0 变 成 8 个 字 节 ， 变 成 字 节 序列 00 01 23 45 67 89 ab cd。 
写成 按 字 节 反 序 就 是 cd ab 89 67 45 23 01 00。 将 它们 都 连接 起 来 就 得 到 指令 的 编码 
4042cdab896745230100。 
指令 集 的 一 个 重要 性 质 就 是 字 节 编码 必须 有 唯一 的 解释 。 任 意 一 个 字 市 序列 要 么 是 一 
个 唯一 的 指令 序列 的 编码 ， 要 么 就 不 是 一 个 合法 的 字 节 序列 。Y86-64 就 具有 这 个 性 质 ， 
因为 每 条 指令 的 第 一 个 字 节 有 唯一 的 代码 和 功能 组 合 ， 给 定 这 个 字 节 ， 我 们 就 可 以 决定 所 
有 其 他 附加 字 节 的 长 度 和 含义 。 这 个 性 质保 证 了 处 理 器 可 以 无 二 义 性 地 执行 目标 代码 程 
序 。 即 使 代码 散人 在 程序 的 其 他 字 节 中 ， 只 要 从 序列 的 第 一 个 字 节 开始 处 理 ， 我 们 仍然 可 
以 很 容易 地 确定 指令 序列 。 反 过 来 说 ， 如 果 不 知道 一 段 代 码 序 列 的 起 始 位 置 ， 我 们 就 不 能 
准确 地 确定 怎样 将 序列 划分 成 单独 的 指令 。 对 于 试图 直接 从 目标 代码 字 节 序列 中 抽取 出 机 
器 级 程序 的 反 汇 编程 序 和 其 他 一 些 工 具 来 说 ， 这 就 带 来 了 问题 。 
丰台 练习 题 4. 1 确定 下 面 的 Y86-64 指令 序列 的 字 节 编码 。“.pos 0x100” 那 一 行 表明 这 
段 目标 代码 的 起 始 地 址 应 该 是 0x100。 
.pos Ox100 # Start code at address Ox100 
irmovd $15,%hrbx 
rrmovg hrbx,hrcx 
loop: 
rmmovg hrcx,-3(hrbx) 
addq Wrbx,hrcx 
jmp loop 
是 到 练习 题 4.2 确定 下 列 每 个 字 节 序列 所 编码 的 Y86-64 指令 序列 。 如 果 序 列 中 有 不 合 
法 的 字 节 ， 指 出 指令 序列 中 不 合法 和 值 出 现 的 位 置 。 每 个 序列 都 先 给 出 了 起 始 地 址 ， 冒 
号 ， 然 后 是 字 忆 序列 。 
A. Ox100: 30f3fcffffffffffffff40630008000000000000 
Ox200: a06f800c020000000000000030f30a0000000000000090 
Ox300: 5054070000000000000010f0b01f 
Ox400: 611373000400000000000000 
Ox500: 6362a0f0 


同 x86-64 中 的 指令 编码 相 比 ，Y86-64 的 编码 简单 得 多 ， 但 是 没 那 么 紧凑 。 在 所 有 
的 Y86-64 指令 中 ， 寄 存 器 字段 的 位 置 都 是 固定 的 ， 而 在 不 同 的 x86-64 指令 中 ， 它 们 的 
位 置 是 不 一 样 的 。x86-64 可 以 将 常数 值 编 码 成 1]、2、4 或 8 个 字 节 ， 而 了 86-64 总 是 将 
常数 值 编 码 成 8 个 字 节 。 


号 时 三 二 于 要 
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四 下 RSO 和 6ISG 指令 集 

x86-64 有 时 称 为 “复杂 指令 集 计算 机 ”(CISC， 读 作 “sisk”)， 与 “精简 指令 集 计 
算 机 ”(RISC， 读 作 “risk”) 相 对 。 从 历史 上 看 ， 先 出 现 了 CISC 机 器 ， 它 从 最 早 的 计算 
机 演化 而 来 。 到 20 世纪 80 年 代 早 期 ， 随 着 机 器 设计 者 加 入 了 很 多 新 指令 来 支持 高 级 任 
务 ( 例 如 处 理 循 环 缓冲 区 ， 执 行 十 进 制 数 计算 ， 以 及 求 多 项 式 的 值 )， 大 型 机 和 小 型 机 的 
指令 集 已 经 变 得 非常 虎 大 了 。 最 早 的 微 处 理 器 出 现在 20 世纪 70 年 代 早 期 ， 因 为 当时 的 
集成 电路 技术 极 大 地 制约 了 一 块 芯片 上 能 实现 些 什么 ， 所 以 它们 的 指令 集 非 常 有 限 。 微 
处 理 器 发 展 得 很 快 ， 到 20 世纪 80 年 代 早期 ， 大 型 机 和 小 型 机 的 指令 集 复 杂 度 一 直 都 在 
增加 。x86 家 族 沿 着 这 条 道路 发 展 到 IA32， 最 近 是 x86-64。 即 使 是 x86 系列 也 仍然 在 不 
断 地 变化 ， 基 于 新 出 现 的 应 用 的 需要 ， 增 加 新 的 指令 类 。 

20 世纪 80 年 代 早 期 ，RISC 的 设计 理念 是 作为 上 述 发 展 趋势 的 一 种 替代 而 发 展 起 来 
的 。IBM 的 一 组 硬件 和 编译 器 专家 受到 IBM 研究 员 John Cocke 的 很 大 影响 ， 认 为 他 们 
可 以 为 更 简单 的 指令 集 形 式 产生 高 效 的 代码 。 实 际 上 ， 许 多 加 到 指令 集中 的 高 级 指令 很 
难 被 编译 器 产生 ， 所 以 也 很 少 被 用 到 。 一 个 较为 简单 的 指令 集 可 以 用 很 少 的 硬件 实现 ， 
能 以 高 效 的 流水 线 结 构 组 织 起 来 ， 类 似 于 本 章 后 面 描述 的 情况 。 直 到 多 年 以 后 IBM 才 
将 这 个 理念 商品 化 ， 开 发 出 了 Power 和 PowerPC ISA。 

加 州 大 学 伯克利 分 校 的 David Patterson 和 斯 坦 福 大 学 的 John Hennessy 进一步 发 展 
了 RISC 的 概念 。Patterson 将 这 种 新 的 机 器 类 型 命名 为 RISC， 而 将 以 前 的 那 种 称 为 
CISC， 因 为 以 前 没有 必要 给 一 种 几乎 是 通用 的 指令 集 格式 起 名 字 。 

比较 CISC 和 最 初 的 RISC 指令 集 ， 我们 发 现下 面 这 些 一 般 特性 。 


指令 数量 很 多 。Intel 描述 全 套 指令 的 文档 [51] 有 指令 数量 少 得 多 。 通 常 少 于 100 个。 
1200 多 页 。 


有 些 指令 的 延迟 很 长 。 包 括 将 一 个 整 块 从 内 存 的 一 个 



















没有 较 长 延迟 的 指令 。 有 些 早期 的 RISC 机 器 甚至 没 
部 分 复制 到 另 一 部 分 的 指令 ， 以 及 其 他 一 些 将 多 个 寄存 | 有 整数 乘法 指令 ， 要 求 编译 器 通过 一 系列 加 法 来 实现 
器 的 值 复制 到 内 存 或 从 内 存 复制 到 多 个 寄存 器 的 指令 。 乘法 。 


编码 是 可 变 长 度 的 。x86-64 的 指令 长 度 可 以 是 1~ 编码 是 固定 长 度 的 。 通 常 所 有 的 指令 都 编码 为 4 个 
15 个 字 节 ，。 字 节 。 


指定 操作 数 的 方式 很 多 样 。 在 x86-64 中 ， 内 存 操 作 简单 寻 址 方式 。 通 常 只 有 基 址 和 偏 移 量 寻 址 。 
数 指示 符 可 以 有 许多 不 同 的 组 合 ， 这 些 组 合 由 偏 移 量 、 
基 址 和 变 址 寄存 器 以 及 伸缩 因子 组 成 。 


可 以 对 内 存 和 寄存 器 操作 数 进行 算术 和 逮 辑 运算 。 只 能 对 寄存 器 操作 数 进行 算术 和 逮 辑 运算 。 人 允许 使 用 
内 存 引用 的 只 有 load 和 store 指令 ，load 是 从 内 存 读 到 
寄存 器 ，store 是 从 寄存 器 写 到 内 存 。 这 种 方法 被 称 为 
load/store 体系 结构 。 


对 机 器 级 程序 来 说 实现 细节 是 不 可 见 的 。ISA 提供 对 机 器 级 程序 来 说 实现 细节 是 可 见 的 。 有些 RISC 机 
了 程序 和 如 何 执行 程序 之 间 的 清晰 的 抽象 。 器 禁止 某 些 特殊 的 指令 序列 ， 而 有 些 跳 转 要 到 下 一 条 指 
令 执 行 完了 以 后 才 会 生效 。 编 译 器 必须 在 这 些 约束 条 件 
下 进行 性 能 优化 。 
有 条 件 码 。 作 为 指令 执行 的 副产品 ， 设 置 了 一 些 特 没有 条 件 码 。 相反 ， 对 条 件 检测 来 说 ， 要 用 明确 的 测试 
殊 的 标志 位 ， 可 以 用 于 条 件 分 支 检测 。 指令 ， 这些 指令 会 将 测试 结果 放 在 一 个 普通 的 寄存 器 中 。 


栈 密集 的 过 程 链接 。 栈 被 用 来 存 取 过 程 参 数 和 返回 寄存 器 密集 的 过 程 链接 。 寄 存 器 被 用 来 存 取 过 程 参 数 
地 址 。 和 返回 地 址 。 因 此 有 些 过 程 能 完全 避免 内 存 引用 。 通 常 
处 理 器 有 更 多 的 (最 多 的 有 32 个 ) 寄 存 器 。 
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Y86-64 指令 集 既 有 CISC 指令 集 的 属性 ， 也 有 RISC 指令 集 的 属性 。 和 CISC 一 样 ， 
它 有 条 件 码 、 长 度 可 变 的 指令 ， 并 用 栈 来 保存 返回 地 址 。 和 RISC 一 样 的 是 ， 它 采用 
load/store 体系 结构 和 规则 编码 ， 通 过 寄存 器 来 传递 过 程 参 数 。Y86-64 指令 集 可 以 看 成 
是 采用 CISC 指令 集 (x86)， 但 又 根据 某 些 RISC 的 原理 进行 了 简化 。 


国 澡 MSC 与 CSC 之 争 

20 世纪 80 年代 ， 计 算 机 体系 结构 领域 里 关于 RISC 指令 集 和 CISC 指令 集 优 缺点 的 
争论 十 分 激烈 。RISC 的 支持 者 声称 在 给 定 硬件 数量 的 情况 下 ， 通 过 结合 简约 式 指 令 集 
设计 、 高 级 编译 器 技术 和 流水 线 化 的 处 理 器 实现 ， 他 们 能 够 得 到 更 强 的 计算 能 力 。 而 
CISC 的 拥 爱 反驳 说 要 完成 一 个 给 定 的 任务 只 需要 用 较 少 的 CISC 指令 ， 所 以 他 们 的 机 器 
能 够 获得 更 高 的 总 体 性 能 。 

大 多 数 公司 都 推出 了 RISC 处 理 器 系列 产品 ， 包 括 Sun Microsystems (SPARC)、 
IBM 和 Motorola(PowerPC) ， 以 及 Digital Equipment Corporation(Alpha)。 一 家 英国 公 
司 Acorn Computers Ltd. 提出 了 自己 的 体系 结构 一 一 ARM( 最 开始 是 “Acorn RISC 
Machine” 的 首 字 母 缩 写 )， 广 泛 应 用 在 诺 入 式 系 统 中 (比如 手机 )。 

20 世纪 90 年 代 早 期 ， 争 论 逐 渐 平 息 ， 因 为 事实 已 经 很 清楚 了 ， 无 论 是 单纯 的 人 RISC 
还 是 单纯 的 CISC 都 不 如 结合 两 者 思想 精华 的 设计 。RISC 机 器 发 展 进 化 的 过 程 中 ， 引 入 
了 更 多 的 指令 ， 而 许多 这 样 的 指令 都 需要 执行 多 个 周期 。 今 天 的 RISC 机 器 的 指令 表 中 
有 几 百 条 指令 ， 几 乎 与 “精简 指令 集 机 器 ”的 名 称 不 相符 了 。 那 种 将 实现 细节 暴露 给 机 
器 级 程序 的 思想 已 经 被 证 明 是 目光 短 浅 的 。 随 着 使 用 更 加 高 级 硬件 结构 的 新 处 理 器 模型 
的 开发 ， 许 多 实现 细节 已 经 变 得 很 落后 了 ， 但 它们 仍然 是 指令 集 的 一 部 分 。 不 过 ， 作 为 
RISC 设计 的 核心 的 指令 集 仍 然 是 非常 适合 在 流水 线 化 的 机 器 上 执行 的 。 

比较 新 的 CISC 机 器 也 利用 了 高 性 能 流水 线 结构 。 就 像 我 们 将 在 5.7 节 中 讨论 的 那 
样 ， 它 们 读 取 CISC 指令 ， 并 动态 地 翻译 成 比较 简单 的 、 像 RISC 那样 的 操作 的 序列 。 
例如 ， 一 条 将 寄存 器 和 内 存 相 加 的 指令 被 翻译 成 三 个 操作 : 一 个 是 读 原 始 的 内 存 值 ， 一 
个 是 执行 加 法 运算 ， 第 三 就 是 将 和 写 回 内 存 。 由 于 动态 翻译 通常 可 以 在 实际 指令 执行 前 
进行 ， 处 理 器 仍然 可 以 保持 很 高 的 执行 速率 。 

除了 技术 因素 以 外 ， 市 场 因 素 也 在 决定 不 同 指令 集 是 否 成 功 中 起 了 很 重要 的 作用 。 
通过 保持 与 现 有 处 理 器 的 兼容 性 ，Intel 以 及 x86 使 得 从 一 代 处 理 器 迁移 到 下 一 代 变 得 
很 容易 。 由 于 集成 电路 技术 的 进步 ，Intel 和 其 他 x86 处 理 器 制造 商 能 够 克服 原来 8086 
指令 集 设 计 造 成 的 低 效 率 ， 使 用 RISC 技术 产生 出 与 最 好 的 RISC 机 器 相当 的 性 能 。 正 
如 我 们 在 第 3. 1 节 中 看 到 的 那样 ，IA32 发 展演 变 到 x86-64 提供 了 一 个 机 会 ， 使 得 能 够 
将 RISC 的 一 些 特 性 结合 到 x86 中 。 在 桌面 、 便 携 计 算 机 和 基于 服务 器 的 计算 领域 里 ， 
x86 已 经 占据 了 完全 的 统治 地 位 。 

RISC 处 理 器 在 嵌入 式 处 理 器 市 场 上 表现 得 非常 出 色 ， 谋 入 式 处 理 器 负责 控制 移动 
电话 、 汽 车 刹车 以 及 因特网 电器 等 系统 。- 在 这 些 应 用 中 ， 降 低 成 本 和 功 耗 比 保持 后 向 兼 
容 性 更 重要 。 就 出 售 的 处 理 器 数量 来 说 ， 这 是 个 非常 广阔 而 迅速 成 长 着 的 市 场 。 


4. 1.4 Y86-64 异常 


对 Y86-64 来 说 ， 程 序 员 可 见 的 状态 (图 4-1) 包 括 状 态 码 stat， 它 描述 程序 执行 的 总 
体 状 态 。 这 个 代码 可 能 的 值 如 图 4-5 所 示 。 代 码 值 1， 命 名 为 AOK， 表 示 程 序 执行 正 滑 ， 
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而 其 他 一 些 代码 则 表示 发 生 了 某 种 类 型 的 异常 。 代 码 2， 命 名 为 HLT， 表 示 处 理 器 执行 了 
一 条 halt 指令 。 代 码 3， 命 名 为 ADR， 表 示 处 理 器 试图 从 一 个 非法 内 存 地 址 读 或 者 向 一 


个 非法 内 存 地 址 写 ， 可 能 是 当 取 指令 的 时 候 ， 也 
可 能 是 当 读 或 者 写 数 据 的 时 候 。 我 们 会 限制 最 大 
的 地 址 (确切 的 限定 值 因 实现 而 异 )， 任 何 访问 超 
出 这 个 限定 值 的 地 址 都 会 引发 ADR 异常 。 代 码 
4， 命 名 为 INS， 表 示 遇 到 了 非法 的 指令 代码 。 
对 于 Y86-64， 当 过 到 这 些 异常 的 时 候 ， 我 
们 就 简单 地 让 处 理 絮 停止 执行 指令 。 在 更 完整 的 
设计 中 ， 人 处理 器 通常 会 调用 一 个 异常 处 理 程序 


正常 操作 
遇 到 器 执行 halt 指令 


遇 到 非法 地 址 
过 到 非法 指令 
图 4-5 Y86-64 状态 码 。 在 我 们 的 设计 中 ， 
任何 AOK 以 外 的 代码 都 会 使 处 理 器 
停止 





(exception handler)， 这 个 过 程 被 指定 用 来 处 理 遇 到 的 某 种 类 型 的 异常 。 就 像 在 第 8 章 中 
讲述 的 ， 异 第 处 理 程 序 可 以 被 配置 成 不 同 的 结果 ， 例如， 中 止 程序 或 者 调用 一 个 用 户 上 自 定 


义 的 信号 处 理 程序 (signal handler) 。 


4.1.5 Y86-64 程序 


图 4-6 给 出 了 下 面 这 个 C 图 数 的 x86-64 和 Y86-64 汇编 代码 : 


1 long sum(long *start, long count) 
2 

3 long sum = 0; 

4 while (count) { 

3 sum 十 = *start,; 

6 start++; 

7 CoOUunNnb==' 

8 

5 return sum; 

10 3} 


x86-64 code Y86-64 code 


long sum(long *start, long count) 
start in Hrdi, count in Wrsi 
SUunm ， 
moV1 $0, Weax sum = 0 
jmp :LL2 Goto test 
“bn loop: 
addq (Xrdi)，Xrax hddd *#start to sum 
addq $8, %rdi startt+ 


subq $1, hrsi count—— 
"L223 test: 


testq  %rsi, %rsi Test sim 
jne , 工 3 If !=0, goto loop 
rep; ret Return 


‘OO 0 NY OO nn Bb UG NN 一 


long sum(long *start, long count) 
start in Yrdi, count in rsi 
sum: 
irmovg $8,%r8 Constant 8 
irmovgd $1,%r9 Constant 1 
Xorg hrax,hrax sum = 0 
andq %rsi,%rsi Set CC 
jmp test Goto test 
loop: 
mrmovq (%rdi),%r1i0 Get *start 
addq %r10,%rax Add to SHI 
addq %r8,%rdi start++ 
subq %r9,%rsi count——,. Set CC 
test: 
jne loop Stop when 0 
ret Return 





图 4-6 Y86-64 汇编 程序 与 x86-64 汇编 程序 比较 。Sum 函数 计算 一 个 整数 数组 的 和 。 
Y86-64 代码 与 x86-64 代码 遵循 了 相同 的 通用 模式 
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x86-64 代码 是 由 GCC 编译 器 产生 的 。Y86-64 代码 与 之 类 似 , 但 有 以 下 不 同 点 : 

e Y86-64 将 常数 加 载 到 寄存 器 (第 2 一 3 行 )， 因 为 它 在 算术 指令 中 不 能 使 用 立即 数 。 

e 要 实现 从 内 存 读 取 一 个 数值 并 将 其 与 一 个 寄存 器 相 加 ，Y86-64 代码 需要 两 条 指令 
(第 8 一 9 行 )， 而 x86-64 只 需要 一 条 addq 指令 (第 5 行 )。 

e 我 们 手工 编写 的 Y86-64 实现 有 一 个 优势 ， 即 subq 指令 (第 11 行 ) 同 时 还 设置 了 条 
件 码 ， 因 此 GCC 生成 代码 中 的 testq 指令 (第 9 行 ) 就 不 是 必需 的 。 不 过 为 此 ， 
Y86-64 代码 必须 用 andgq 指令 (第 5 行 ) 在 进入 循环 之 前 设置 条 件 码 。 

图 4-7 给 出 了 用 Y86-64 汇编 代码 编写 的 一 个 完整 的 程序 文件 的 例子 。 这 个 程序 既 包 


括 数据 ， 也 包括 指令 。 伪 指令 (directive) 指 明 应 该 将 代码 或 数据 放 在 什么 位 置 ， 以 及 如 何 


对 齐 


[全 4-7 


。 这 个 程序 详细 说 明了 栈 的 放置 、 数 据 初 始 化 、 程 序 初 始 化 和 程序 结束 等 问题 。 


# 上 Execution begins at address 0 
.pos 0 
irmovg stack, hrsp # Set up stack pointer 
call main # Execute main program 
halt # Terminate program 


# Array of 4 elements 
.align 8 

array: 
.quad Ox000d000d000d 
.quad 0Ox00c000c000c0 
.quad 0x0b000b000b00 
.quad Oxa000a000a000 


一 一 
OO 0 NO Wh WW WN 一 


一 一 
cl 


一 
JJ 


hh am 
tt LA 


irmovg array,%rdi 

irmovg $4,%rsi 

call sum # sum(array, 4) 
ret 


I 
On OW NN 


# long sum(long *start, long count) 

# start in %rdi, count in %rsi 

sum: 
irmovg $8,%r8 Constant 8 
irmoVq $1,%hr9 Constant 1 
Xorq Whrax,%hrax sum = 0 
andq %rsi,Xrsi Set CC 
jmp test Goto test 


21 
22 
23 
24 
23 


26 


LU jh MW) 
CA 0 WW 


mrmovq (hrdi),%hr1i0 Get *start 

addq %r10,%hrax Add to sum 

addq %r8,%rdi start++ 

subq %r9,%rsi count-——, Set CC 


Ll 5 
NUJ 一 


LA Wy 
~ LU 


(LA 
op 


jne loop Stop when 0 
ret Return 


LW 
Nom 


# Stack starts here and grows to lower addresses 
.Pos Ox200 
stack: 


| 
| 





用 Y86-64 汇编 代码 编写 的 一 个 例子 程序 。 调 用 sum 函数 来 计算 一 个 具有 4 个 元 素 的 数组 的 和 
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在 这 个 程序 中 ， 以 “. ”开头 的 词 是 汇编 器 伪 指 令 (assembler directives)， 它 们 告诉 汇 
编 带 调整 地 址 ， 以 便 在 那儿 产生 代码 或 插入 一 些 数 据 。 伪 指令 .pos 0( 第 2 行 ) 告 诉 汇 编 器 
应 该 从 地 址 0 处 开始 产生 代码 。 这 个 地 址 是 所 有 Y86-64 程序 的 起 点 。 接 下 来 的 一 条 指令 
(第 3 行 ) 初 始 化 栈 指针 。 我 们 可 以 看 到 程序 结尾 处 (第 40 行 ) 声 明了 标号 stack， 并 且 用 
一 个 .pos 伪 指令 (第 39 行 ) 指 明 地 址 0x200。 因 此 栈 会 从 这 个 地 址 开始 ， 向 低地 址 增长 。 
我 们 必须 保证 栈 不 会 增长 得 太 大 以 至 于 覆盖 了 代码 或 者 其 他 程序 数据 。 

程序 的 第 8 一 13 行 声明 了 一 个 4 个 字 的 数组 ， 值 分 别 为 

0x000d000d000d000d, 0x00c000c000c000c0 
0xopb00ob00oob00ob00，o0oxa000a000a000a000 
标号 array 表 明了 这 个 数组 的 起 始 ， 并且 在 8 字 节 边界 处 对 齐 ( 用 .align 伪 指 令 指 定 )。 
第 16 一 19 行 给 出 了 “main” 过 程 ， 在 过 程 中 对 那个 四 字数 组 调用 了 sum 图 数 ， 然 后 停止 。 

正如 例子 所 示 ， 由 于 我 们 创建 Y86-64 代码 的 唯一 工具 是 汇编 器 ， 程 序 员 必须 执行 本 
来 通常 交 给 编译 带 、 链 接 器 和 运行 时 系统 来 完成 的 任务 。 幸 好 我 们 只 用 Y86-64 来 写 一 些 
小 的 程序 ， 对 此 一 些 简单 的 机 制 就 足够 了 。 

图 4-8 是 YAS 的 汇编 亏 对 图 4-7 中 代码 进行 汇编 的 结果 。 为 了 便于 理解 ， 汇 编 右 的 输 
出 结果 是 ASCII 码 格 式 。 汇 编 文 件 中 有 指令 或 数据 的 行 上 ， 目 标 代码 包含 一 个 地 址 ， 后 面 
跟着 1 一 10 个 字 节 的 值 。 

我 们 实现 了 一 个 指令 集 模拟 器 ， 称 为 YIS， 它 的 目的 是 模拟 Y86-64 机 器 代码 程序 的 
执行 ， 而 不 用 试图 去 模拟 任何 具体 处 理 虎 实现 的 行为 。 这 种 形式 的 模拟 有 助 于 在 有 实际 硬 
件 可 用 之 前 调试 程序 ， 也 有 助 于 检查 模拟 硬件 或 者 在 硬件 上 运行 程序 的 结果 。 用 YIS 运行 
例子 的 目标 代码 ， 产 生 如 下 输出 : 


Stopped in 34 steps at PC = 0xl3. 
Changes to registers: 


Status 'HLT', CC 2Z=1 S=0 0=0 


hrax: Ox0000000000000000 Ox0000abcdabcdabcd 
hrsp Ox0000000000000000 Ox0000000000000200 
%rdi Ox0000000000000000 Ox0000000000000038 
hr8: Ox0000000000000000 0x0000000000000008 
hr9: Ox0000000000000000 Ox0000000000000001 
%r10 Ox0000000000000000 Ox0000a000a000a000 
Changes to memory: 

Ox01f0: Ox0000000000000000 Ox0000000000000055 
Ox0O1f8: Ox0000000000000000 Ox0000000000000013 


模拟 输出 的 第 一 行 总 结 了 执行 以 及 PC 和 程序 状态 的 结果 值 。 模 拟 融 只 打印 出 在 模拟 
过 程 中 被 改变 了 的 寄存 器 或 内 存 中 的 字 。 左 边 是 原始 值 (这 里 都 是 0) ， 右 边 是 最 终 的 值 。 
从 输出 中 我 们 可 以 看 到 ， 寄 存 器 srax 的 值 为 0xabcdabcdabcdabcd， 即 传 给 子 浮 数 sum 
的 四 元 素数 组 的 和 。 另 外 ， 我 们 还 能 看 到 栈 从 地 址 0x200 开始 ， 向 下 增长 ， 栈 的 使 用 导致 
内 存 地 址 0x1f0 一 0xl1f8 发 生 了 变化 。 可 执行 代码 的 最 大 地 址 为 0x&090， 所 以 数值 的 入 栈 
和 出 栈 不 会 破坏 可 执行 代码 。 
区 所 练习 题 4.3 机 器 级 程序 中 常见 的 模式 之 一 是 将 一 个 常数 值 与 一 个 寄存 器 相 加 。 利 用 
目前 已 给 出 的 Y86-64 指令 ， 实 现 这 个 操作 需要 一 条 irmovg 指令 把 常数 加 载 到 寄存 
器 ， 然 后 一 条 addq 指令 把 这 个 寄存 器 值 与 目标 寄存 器 值 相 加 。 假 设 我 们 想 增 加 一 条 
新 指令 iaddq， 格 式 如 下 : 
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Ox000: 
0x000: 
Ox00a: 
Ox013: 


Ox018: 
Ox018: 
Ox018: 
0x020: 
0x028: 
Ox030: 


0x038: 
Ox038: 
Ox042: 
Ox0O4c: 
Ox055: 


0x056: 
Ox056: 
Ox060: 
Ox06a.: 
Ox06c: 
Ox06e: 
Ox077: 
OxO077: 
Ox081: 
Ox083: 
0x085: 
Ox087: 
0x087: 
Ox090: 


Ox200: 
Ox200: 


区 2 . . 
图 4-8 


字 节 0 2 


3 4 3 


6 


7 8 9 


1 
iaaag V,rB [cl|olzrlrl vv | 
该 指令 将 常数 值 V 与 寄存 器 rB 相 加 。 
使 用 iaddq 指令 重 写 图 4-6 的 Y86-64 sum 函数 。 在 之 前 的 代码 中 ， 我 们 用 寄存 
器 %r8 和 和 %r9 来 保存 常数 值 。 现 在 ， 我 们 完全 可 以 避免 使 用 这 些 寄 存 器 。 


.Pos Ox200 


# Execution begins at address 0 


# Set up stack pointer 
# Execute main program 
# Terminate program 


# sum(array, 4) 


Constant 8 
Constant 1 
sum 
Set CC 

Goto test 


0 


Get *start 
Add to sum 
start++ 
count-~—,。 Set GC 
Stop when 0 
Return 


# Stack starts here and grows to lower addresses 


| 

| .pos 0 
30f40002000000000000 | irmovg stack, %rsp 
803800000000000000 | call main 
00 | halt 

| 

| # Array of 4 elements 

| .align 8 

| array: 
0d000d000d000000 | .quad 0x000d000d000d 
co000c000c0000000 | .quad 0Ox00c000c000c0 
000b000b000b0000 | .quad 0x0b000b000b00 
00a000a000a00000 | .quad Oxa000a000a000 

| main: 
30f71800000000000000 | irmovg array,%rdi 
30f60400000000000000 | irmovg $4,%hrsi 
805600000000000000 | call sum 
90 | ret 

| 

| # long sum(long *start, long count) 

| # start in %rdi, count in %rsi 

| sum: 
30f80800000000000000 | irmovg $8,%r8 
30f90100000000000000 | irmovg $1,%r9 
6300 | xorqg hrax,%hrax 
6266 | andq %rsi,%hrsi 
708700000000000000 | jmp test 

| loop: 
50a70000000000000000 | mrmoVvq (%rdi),%ri0 
60a0 | addq %r10,%hrax 
6087 | addq %r8,%rdi 
6196 | subq %r9,%hrsi 

| test: 
747700000000000000 | jne loop 
90 | ret 

| 

| 

| 

| 


stack: 


YAS 汇 编 器 的 输出 。 每 一 行 包含 一 个 十 六 进 制 的 地 址 ， 以 及 字 节 数 在 1 一 10 之 间 的 目标 代码 
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全 双 练习 题 4.4 根据 下 面 的 C 代 码 ， 用 Y86-64 代码 来 实现 一 个 递归 求 和 函数 rsum: 


long rsum(long *start, long count) 


if (count <= 0) 
return 0; 
return *start + rsum(start+1, count-1),; 
} 
使 用 与 x86-64 代码 相同 的 参数 传递 和 寄存 器 保存 方法 。 在 一 合 x86-64 机 器 上 编 
译 这 段 C 代码 ， 然 后 再 把 那些 指令 翻译 成 Y86-64 的 指令 ， 这 样 做 可 能 会 很 有 帮助 。 
证 纪 练 习题 4.5 修改 sum 函数 的 Y86-64 代码 (图 4-6)， 实 现 函 数 absSum， 它 计算 一 个 
数组 的 绝对 值 的 和 。 在 内 循环 中 使 用 条 件 跳 转 指 令 。 
让 缠 练习 题 4.6 修改 sum 函数 的 Y86-64 代码 (图 4-6)， 实 现 函 数 absSum， 它 计算 一 个 
数组 的 绝对 值 的 和 。 在 内 循环 中 使 用 条 件 传 送 指 令 。 


4. 1.6 一 些 Y86-64 指令 的 详情 


大 多 数 Y86-64 指令 是 以 一 种 直接 明了 的 方式 修改 程序 状态 的 ， 所 以 定义 每 条 指令 想 

要 达到 的 结果 并 不 困难 。 不 过 ， 两 个 特别 的 指令 的 组 合 需 要 特别 注意 一 下 。 
pushq 指令 会 把 栈 指针 减 8， 并 且 将 一 个 寄存 器 值 写 人 内 存 中 。 因 此 ， 当 执行 pushq 

srsp 指令 时 ， 处 理 器 的 行为 是 不 确定 的 ， 因 为 要 人 栈 的 寄存 器 会 被 同一 条 指令 修改 。 通 

常 有 两 种 不 同 的 约定 : 1) 压 人 srsp 的 原始 值 ，2) 压 和 人 减 去 8 的 srsp 的 值 。 

对 于 Y86-64 处 理 器 来 说 ， 我 们 采用 和 x86-64 一 样 的 做 法 ， 就 像 下 面 这 个 练习 题 确定 

出 的 那样 。 

区 汉 练习 题 4.7 确定 x86-64 处 理 器 上 指令 pushq srsp 的 行为 。 我 们 可 以 通过 阅读 Intel 
关于 这 条 指令 的 文档 来 了 解 它们 的 做 法 ， 但 更 简单 的 方法 是 在 实际 的 机 器 上 做 个 实 
验 。C 编译 器 正常 情况 下 是 不 会 产生 这 条 指令 的 ， 所 以 我 们 必须 用 手工 生成 的 汇编 代 
码 来 完成 这 一 任务 。 下 面 是 我 们 写 的 一 个 测试 程序 (网 络 旁 注 ASM:EASM， 描 绘 如 
何 编 写 C 代码 和 手写 汇编 代码 结合 的 程序 ); 


1 ‘text 

2 .Elobl pushtest 

3 pushtest: 

4 movg hrsp, hrax Copy stack pointer 
5 Pushq  ‘%rsp Push stack pointer 
6 Popq hrdx Pop it back 

7 subq hrodx, hrax Return 0 or 8 

8 ret 


在 实验 中 ， 我 们 发 现 函 数 pushtest 总 是 返回 0， 这 表示 在 x86-64 中 pushq gsrsp 
指令 的 行为 是 怎样 的 呢 ? 
对 popq Srsp 指令 也 有 类 似 的 卜 义 。 可 以 将 srspP 置 为 从 内 存 中 读 出 的 值 ， 也 可 以 置 
为 加 了 增 量 后 的 栈 指针 。 同 练习 题 4.7 一 样 ， 让 我 们 做 个 实验 来 确定 x86-64 机 颖 是 怎么 
处 理 这 条 指令 的 ， 然 后 Y86-64 机 器 就 采用 同样 的 方法 。 
区 局 练习 题 4.8 下 面 这 个 汇编 函数 让 我 们 确定 x86-64 上 指令 popq %rsp 的 行为 : 


] .text 
2 .globl poptest 
3 poptest: 
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movq hrSP，Xrdi Save stack pointer 
5 pushq $0Oxabcd Push test value 
6 popq rsp Pop to stack pointer 
7 movg hESD ， hrax Set popped value as return vailue 
8 movg wrdi, hrsp Restore stack pointer 
9 ret 


其 他 Y86-64 指令 也 会 有 相同 的 行为 吗 ? 


ES 正确 了 解 细节 : x86 模型 间 的 不 一 至 

练习 题 4.7 和 练习 题 4.8 可 以 帮助 我 们 确定 对 于 压 入 和 弹出 栈 指针 指令 的 一 致 惯 
例 。 看 上 去 似乎 没有 理由 会 执行 这 样 两 种 操作 ， 那 么 一 个 很 自然 的 问题 就 是 “为 什么 要 
担心 这 样 一 些 吹 毛 求 竟 的 细节 呢 ?” 

从 下 面 Intel 关于 PUSH 指令 的 文档 [51 |] 的 节选 中 ， 可 以 学 到 关于 这 个 一 致 的 重要 
性 的 有 用 的 教训 : 

对 于 IA-32 处 理 器 ， 从 Intel 286 开始 ，PUSH ESP 指令 将 ESP 寄存 器 的 值 压 入 栈 
中 ， 就 好 像 它 存在 于 这 条 指令 被 执行 之 前 。( 对 于 Intel 64 体系 结构 、IA-32 体系 结构 的 
实地 址 模式 和 虚 8086 模式 来 说 也 是 这 样 。) 对 于 Intel@ 8086 处 理 器 ，PUSH SP 将 SP 
寄存 器 的 新 值 压 入 栈 中 (也 就 是 减 去 2 之 后 的 值 )。(PUSH ESP 指令 。Intel 公司 。50。) 

虽然 这 个 说 明 的 具体 细节 可 能 难以 理解 ， 但 是 我 们 可 以 看 到 这 条 注释 说 明 的 是 当 执 
行 压 入 栈 指针 寄存 器 指令 时 ， 不 同型 号 的 x86 处 理 器 会 做 不 同 的 事情 。 有 些 会 压 入 原始 
的 值 ， 而 有 些 会 压 入 减 去 后 的 值 。 (有 趣 的 是 ， 对 于 弹出 栈 指 针 寄 存 器 没有 类 似 的 歧 
义 。) 这 种 不 一 致 有 两 个 缺点 : 

@ 它 降 低 了 代码 的 可 移植 性 。 取 决 于 处 理 器 模型 ， 程序 可 能 会 有 不 同 的 行为 。 虽 人 然 

这 样 特殊 的 指令 并 不 常见 ， 但 是 即使 是 潜在 的 不 兼容 也 可 能 带 来 严重 的 后 果 。 

@ 它 增加 了 文档 的 复杂 性 。 正 如 在 这 里 我 们 看 到 的 那样 ， 需 要 一 个 特别 的 说 明 来 澄 

清 这 些 不 同 之 处 。 即 使 没有 这 样 的 特殊 情况 ，x86 文档 就 已 经 够 复杂 的 了 。 

因此 我 们 的 结论 是 ， 从 长 远 来 看 ， 提 前 了 解 细节 ， 力 争 保 持 完 全 的 一 致 能 够 节省 很 
多 的 麻烦 。 





4.2 逻辑 设计 和 硬件 控制 语言 HCL 


在 硬件 设计 中 ， 用 电子 电路 来 计算 对 位 进行 运算 的 函数 ， 以 及 在 各 种 存储 器 单元 中 存 
储 位 。 大 多 数 现代 电路 技术 都 是 用 信号 线 上 的 高 电压 或 低 电压 来 表示 不 同 的 位 值 。 在 当前 
的 技术 中 ， 逻 辑 1 是 用 1. 0 伏特 左右 的 高 电压 表示 的 ， 而 逻辑 0 是 用 0. 0 伏特 左右 的 低 电 
压 表 示 的 。 要 实现 一 个 数字 系统 需要 三 个 主要 的 组 成 部 分 : 计算 对 位 进行 操作 的 函数 的 组 
合 逻 辑 、 存 储 位 的 存储 器 单元 ， 以 及 控制 存储 器 单元 更 新 的 时 钟 信 号 。 
本 节 简 要 描述 这 些 不 同 的 组 成 部 分 。 我 们 还 将 介绍 HCL (Hardware Control Lan- 
guage， 硬 件 控制 语言 )， 用 这 种 语言 来 描述 不 同 处 理 器 设计 的 控制 逻辑 。 在 此 我 们 只 是 侧 
略 地 描述 HCL，HCL 完整 的 参考 请 见 网 络 劳 注 ARCH:HCL。 


ES 河 现代 逻辑 设计 
曾经 ， 硬 件 设 计 者 通过 描绘 示意 性 的 逻辑 电路 图 来 进行 电路 设计 (最 早 是 用 纸 和 笔 ， 
后 来 是 用 计算 机 图 形 终 端 ) 。 现 在 ， 大 多 数 设计 都 是 用 硬件 描述 语言 (Hardware Description 
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Language，HDL) 来 表达 的 。HDL 是 一 种 文本 表示 ， 看 上 去 和 编程 语言 类 似 ， 但 是 它 
是 用 来 描述 硬件 结构 而 不 是 程序 行为 的 。 最 常用 的 语言 是 Verilog， 它 的 语法 类 似 于 C; 
另 一 种 是 VHDL， 它 的 语法 类 似 于 编程 语言 Ada。 这 些 语言 本 来 都 是 用 来 表示 数字 电路 
的 模拟 模型 的 。20 世纪 80 年 代 中 期 ， 研 究 者 开发 出 了 逻辑 合成 (logic synthesis) 程序 ， 
它 可 以 根据 HDL 的 描述 生成 有 效 的 电路 设计 。 现 在 有 许多 商用 的 合成 程序 ， 已 经 成 为 
产生 数字 电路 的 主要 技术 。 从 手工 设计 电路 到 合成 生成 的 转变 就 好 像 从 写 汇 编程 序 到 写 
高 级 语言 程序 ， 再 用 编译 器 来 产生 机 器 代码 的 转变 一 样 。 

我 们 的 HCL 语言 只 表达 硬件 设计 的 控制 部 分 ， 只 有 有 限 的 操作 集合 ， 也 没有 模块 化 。 
不 过 ， 正 如 我 们 会 看 到 的 那样 ， 控 制 逻 辑 是 设计 微 处 理 器 中 最 难 的 部 分 。 我 们 已 经 开发 出 
了 将 HCL 直接 翻译 成 Verilog 的 工具 ， 将 这 个 代码 与 基本 硬件 单元 的 Verilog 代码 结合 起 
来 ， 就 能 产生 HDL 描述 ， 根 据 这 个 HDL 描述 就 可 以 合成 实际 能 够 工作 的 微 处 理 器 。 通 过 
小 心地 分 离 、 设 计 和 测试 控制 逻辑 ， 再 加 上 适当 的 努力 ， 我 们 就 能 创建 出 一 个 可 以 工作 的 
微 处 理 器 。 网 络 旁 注 ARCH:VLOG 描述 了 如 何 能 产生 Y86-64 处 理 器 的 Verilog 版 本 。 


4.2. 1 逻辑 门 

逻辑 门 是 数字 电路 的 基本 计算 单元 。 它 们 产生 的 输出 ， 等 于 它们 输入 位 值 的 某 个 布尔 
函数 。 图 4-9 是 布尔 函数 AND、OR 和 NOT 的 标准 符号 ，C 语言 中 运算 符 (2. 1. 8 节 ) 的 
逻辑 门下 面 是 对 应 的 HCL 表达 式 : AND 用 总 必 表示 ，OR 用 || 表示， 而 NOT 用 ! 表 
示 。 我 们 用 这 些 符号 而 不 用 C 语言 中 的 位 运算 符 &、| 和 一 ， 这 是 因为 逻辑 门 只 对 单个 
位 的 数 进行 操作 ， 而 不 是 整个 字 。 虽 然 图 中 只 说 明了 AND 和 OR 门 的 两 个 输入 的 版 本 ， 
但 是 常见 的 是 它们 作为 n 路 操作 ， nn 二 2。 不 过 ,在 HCL as 


符 ， 所 以 ， 三 个 输入 的 AND 门 ， 输 入 为 a、 NOT 
b 和 c， 用 HCL 表示 就 是 a&&bg&c。 out asa 十 > out 
逻辑 门 总 是 活动 的 (active)。 一 日 一 个 门 ~ ED- a 
的 输入 变化 了 ， 在 很 短 的 时 间 内 ， 输 出 就 会 
相应 地 变化 。 图 4-9 逻辑 门类 型 。 每 个 门 产生 的 输出 
等 于 它 输入 的 某 个 布尔 函数 


4.2.2 组 合 电路 和 HCL 布尔 表达 式 


将 很 多 的 逻辑 门 组 合成 一 个 网 ， 就 能 构建 计算 块 (computational block)， 称 为 组 合 电 
路 (combinational circuits) 。 如 何 构建 这 些 网 有 几 个 限制 ; 
e 每 个 逻辑 门 的 输入 必须 连接 到 下 述 选项 之 一 : 1) 一 个 系统 输入 ( 称 为 主 输入 )，2) 某 
个 存储 器 单元 的 输出 ，3) 某 个 逻辑 门 的 输出 。 

e 两 个 或 多 个 逻辑 门 的 输出 不 能 连接 在 一 起 。 否 则 它们 可 能 会 使 线 上 的 信号 矛盾 ， 可 
能 会 导致 一 个 不 合法 的 电压 或 电路 故障 。 

e 这 个 网 必须 是 无 环 的 。 也 就 是 在 网 中 不 能 有 路 径 经 过 一 系列 的 门 而 形成 一 个 回路 ， 
这 样 的 回路 会 导致 该 网 络 计 算 的 函数 有 歧义 。 

图 4-10 是 一 个 我 们 觉得 非常 有 用 的 简单 组 合 电 路 的 例子 。 它 有 两 个 输入 a 和 hb， 有 唯 
一 的 输出 eq， 当 a 和 b 都 是 1( 从 上 面 的 AND 门 可 以 看 出 ) 或 都 是 0( 从 下 面 的 AND 门 可 
以 看 出 ) 时 ， 输 出 为 1]。 用 HCL 来 写 这 个 网 的 图 数 就 是 : 

bool eq = (a && b) || (!a && !b) ; 
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这 段 代 码 简 单 地 定义 了 位 级 (数据 类 型 bool 表明 了 这 一 点 ) 信 号 eq， 它 是 输入 a 和 
的 函数 。 从 这 个 例子 可 以 看 出 HCL 使 用 了 C 语言 风格 的 语法 ,， “二 ”将 一 个 信号 名 与 一 个 
表达 式 联 系 起 来 。 不 过 同 C 不 一 样 ， 我 们 不 把 它 看 成 执行 了 一 次 计算 并 将 结果 放 入 内 存 中 
某 个 人 位置。 相反， 它 只 是 给 表达 式 一 个 名 字 。 

时 可 练习 题 4.9 写 出 信号 xor 的 HCL 表达 式 ，xor 就 是 异 或 ， 输入 为 a 和 b。 信 号 xor 

和 上 面 定义 的 eq 有 什么 关系 ? 

图 4-11 给 出 了 男 一 个 简单 但 很 有 和 用 的 组 合 电路 ， 称 为 多 路 复 用 器 (multiplexor， 通 常 
称 为 “MUX”)。 多 路 复 用 器 根据 输入 控制 信号 的 值 ， 从 一 组 不 同 的 数据 信号 中 选 出 一 个 。 
在 这 个 单个 位 的 多 路 复 用 器 中 ， 两 个 数据 信号 是 输入 位 a 和 bb， 控制 信号 是 输入 位 s。 当 s 
为 1 时， 输出 等 于 a; 而 当 s 为 0 时 ,输出 等 于 b。 在 这 个 电路 中 ， 我们 可 以 看 出 两 个 
AND 门 决定 了 是 否 将 它们 相对 应 的 数据 输入 传送 到 OR 门 。 当 s 为 0 时 ， 上 面 的 AND 门 
将 传送 信号 b( 因 为 这 个 门 的 另 一 个 输入 是 !s)， 而 当 s 为 1 时 ， 下 面 的 AND 门将 传送 信 
号 a。 接 下 来 ， 我 们 来 写 输出 信号 的 HCL 表达 式 ， 使 用 的 就 是 组 合 逻辑 中 相同 的 操作 ; 

bool out = (s && a) || (!s && b) ; 





加 4-10 检测 位 相等 的 组 合 电路 。 当 输入 都 为 0 图 4-11 单个 位 的 多 路 复 用 器 电路 。 如 果 控 制 信和 号 
或 都 为 1 时 ， 输出 等 于 1 s 为 1， 则 输出 等 于 输入 a; 当 s 为 0 
时 ， 输 出 等 于 输入 b 
HCL 表达 式 很 清楚 地 表明 了 组 合 逻 辑 电路 和 C 语 言 中 逻辑 表达 式 的 对 应 之 处 。 它 们 
都 是 用 布尔 操作 来 对 输入 进行 计算 的 函数 。 值 得 注意 的 是 ， 这 两 种 表达 计算 的 方法 之 间 有 
以 下 区 别 : 
e 因为 组 合 电 路 是 由 一 系列 的 逻辑 门 组 成 ， 它 的 属性 是 输出 会 持续 地 响应 输入 的 变 
化 。 如 果 电 路 的 输入 变化 了 ,在 一 定 的 延迟 之 后 ， 输 出 也 会 相应 地 变化 。 相 比 之 
下 ，C 表达 式 只 会 在 程序 执行 过 程 中 被 遇 到 时 才 进 行 求 值 。 
e C 的 逻辑 表达 式 允 许 参数 是 任意 整数 ，0 表示 FALSE， 其 他 任何 值 都 表示 TRUE。 
而 多 辑 门 只 对 位 值 0 和 1 进行 操作 。 
eC 的 逻辑 表达 式 有 个 属性 就 是 它们 可 能 只 被 部 分 求 值 。 如 果 一 个 AND 或 OR 操作 
的 结果 只 用 对 第 一 个 参数 求 值 就 能 确定 ， 那 么 就 不 会 对 第 二 个 参数 求 值 了 。 例 如 下 
面 的 C 表达 式 : 
(a && !a) && func(b,c) 


这 里 函数 func 是 不 会 被 调用 的 ， 因 为 表达 式 (a && !a) 求 值 为 0。 而 组 合 逻 辑 没有 
部 分 求 值 这 条 规则 ， 逻 辑 门 只 是 简单 地 啊 应 输入 的 变化 。 
4.2.3 字 级 的 组 合 电路 和 HCL 整数 表达 式 


通过 将 逻辑 门 组 合成 大 的 网 ， 可 以 构造 出 能 计算 更 加 复杂 函数 的 组 合 电 路 。 通 常 ， 我 
们 设计 能 对 数据 字 (word) 进 行 操作 的 电路 。 有 一 些 位 级 信号 ， 代 表 一 个 整数 或 一 些 控制 模 
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式 。 例 如 ， 我 们 的 处 理 器 设计 将 包含 有 很 多 字 ， 字 的 大 小 的 范围 为 4 位 到 64 位 ， 代 表 整 
数 、 地 址 、 指 令 代 码 和 寄存 器 标识 符 。 

执行 字 级 计算 的 组 合 电路 根据 输入 字 的 各 个 位 ， 用 逻辑 门 来 计算 输出 字 的 各 个 位 。 例 如 
图 4-12 中 的 一 个 组 合 电路 ， 它 测试 两 个 64 位 字 A 和 B 是 否 相 等 。 也 就 是 ， 当 且 仪 当 A 的 每 
一 位 都 和 B 的 相应 位 相等 时 ， 输 出 才 为 1。 这 个 电路 是 用 64 个 图 4-10 中 所 示 的 单个 位 相等 
电路 实现 的 。 这 些 单个 位 电路 的 输出 用 一 个 AND 门 连 起 来 ， 形 成 了 这 个 电路 的 输出 。 


A==B 





a ) 位 级 实现 b ) 字 级 抽象 


名 4-12 字 级 相等 测试 电路 。 当 字 A 的 每 一 位 与 字 B 中 相应 的 位 均 相 等 时 ， 
输出 等 于 1。 字 级 相等 是 HCL 中 的 一 个 操作 


在 HCL 中 ,我 们 将 所 有 字 级 的 信号 都 声明 为 int， 不 指定 字 的 大 小 。 这 样 做 是 为 了 
简单 。 在 全 功能 的 硬件 描述 语言 中 ， 每 个 字 都 可 以 声明 为 有 特定 的 位 数 。HCL 允许 比较 
字 是 否 相等 ， 因 此 图 4-12 所 示 的 电路 的 函数 可 以 在 字 级 上 表达 成 

bool Eq = (A == B); 


这 里 参数 入 和 B 是 int 型 的 。 注 意 我 们 使 用 和 C 语言 中 一 样 的 语法 习惯 ,，“= “表示 赋 
值 ， 而 “== 是 相等 运算 符 。 

如 图 4-12 中 右边 所 示 ， 在 画 字 级 电路 的 时 候 ， 我们 用 中 等 粗 度 的 线 来 表示 携 禹 字 的 
每 个 位 的 线路 ， 而 用 虚线 来 表示 布尔 信号 结果 。 
评弹 练习 题 4. 10 ”假设 你 用 练习 题 49 中 的 异 或 电路 而 不 是 位 级 的 相等 电路 来 实现 一 个 字 级 的 

相等 电路 。 设 计 一 个 64 位 字 的 相等 电路 需要 64 个 字 级 的 异 或 电路 ， 另 外 还 要 两 个 逻辑 门 。 

图 4-13 是 字 级 的 多 路 复 用 絮 电 路 。 这 个 电路 根据 控制 输入 位 s， 产 生 一 个 64 位 的 字 
out， 等 于 两 个 输入 字 A 或 者 B 中 的 一 个 。 这 个 电路 由 64 个 相同 的 子 电 路 组 成 ， 每 个 子 电 
路 的 结构 都 类 似 于 图 4-11 中 的 位 级 多 路 复 用 器 。 不 过 这 个 字 级 的 电路 并 没有 简单 地 复制 
64 次 位 级 多 路 复 用 器 ， 它 只 产生 一 次 !s， 然 后 在 每 个 位 的 地 方 都 重复 使 用 它 ， 从 而 减少 
反 相 需 或 非 门 (Cinverters) 的 数量 。 

处 理 器 中 会 用 到 很 多 种 多 路 复 用 器 ， 使 得 我 们 能 根据 某 些 控制 条 件 ， 从 许多 源 中 选 出 
一 个 字 。 在 HCL 中 ， 多 路 复 用 函数 是 用 情况 表达 式 (case expression) 来 描述 的 。 情 况 表达 
式 的 通用 格式 如 下 : 

Selectl : expri; 

select» : expr;; 


select; : expr; 
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这 个 表达 式 包含 一 系列 的 情况 ， 每 种 情况 i 都 有 一 个 布尔 表达 式 select; 和 一 个 整数 表 
达 式 expr;， 前 者 表明 什么 时 候 该 选择 这 种 情况 ， 后 者 指明 的 是 得 到 的 值 。 


aE :OuE = |[ 
Ss : A; 
由 Bs; 
] 2 





a ) 位 级 实现 b ) 字 级 抽象 


图 4-13 字 级 多 路 复 用 天 电路 。 当 控制 信号 s 为 1 时 ， 输 出 会 等 于 输入 字 ah， 
否则 等 于 B。HCL 中 用 情况 (case) 表 达 式 来 描述 多 路 复 用 器 


同 C 的 switch 语句 不 同 ， 我 们 不 要 求 不 同 的 选择 表达 式 之 间 互 斥 。 从 逻辑 上 讲 ， 这 
些 选 择 表达 式 是 顺序 求 值 的 ， 且 第 一 个 求 值 为 1 的 情况 会 被 选中 。 例 如 ， 图 4-13 中 的 字 
级 多 路 复 用 郁 用 HCL 来 描述 就 是 : 
word Out = [ 
s: A; 
1: Bs 
]; 
在 这 段 代码 中 ， 第 二 个 选择 表达 式 就 是 1， 表 明 如 果 前 面 没 有 情况 被 选中 ， 那 就 选择 这 
种 情况 。 这 是 HCL 中 一 种 指定 默认 情况 的 方法 。 几 乎 所 有 的 情况 表达 式 都 是 以 此 结尾 的 。 
允许 不 互 太 的 选择 表达 式 使 得 HCL 代码 的 可 读 性 更 好 。 实 际 的 硬件 多 路 复 用 器 的 信和 号 
必须 互 斥 ， 它 们 要 控制 哪个 输入 字 应 该 被 传送 到 输出 ， 就 像 图 4-13 中 的 信号 s 和 !s。 要 将 一 
个 HCL 情况 表达 式 翻 译 成 硬件 ， 人 逻辑 合成 程序 需要 分 析 选 择 表达 式 集合 ， 并 解决 任何 可 能 


的 冲突 ， 确 保 只 有 第 一 个 满足 的 情况 才 会 被 选中 。 本 
选择 表达 式 可 以 是 任意 的 布尔 表达 式 ， 可 以 有 任意 本 
多 的 情况 。 这 就 使 得 情况 表达 式 能 描述 带 复杂 选择 标准 
的 、 多 种 输入 信和 号 的 块 。 例 如 ， 考 虑 图 4-14 中 所 示 的 四 
路 复 用 器 的 图 。 这 个 电路 根据 控制 信号 si1 和 s0， 从 4 


个 输入 字 A、B、C 和 D 中 选择 一 个 ， 将 控制 信号 看 作 一 图 上 14 四 路 复 用 器 。 控制 信号 si 和 
个 两 位 的 二 进 制 数 。 我 们 可 以 用 HCL 来 表示 这 个 电路 ， s0 的 不 同 组 合 决定 了 哪个 数 
用 布尔 表达 式 描述 控制 位 模式 的 不 同 组 合 : 据 输 入 会 被 传送 到 输出 


word Out4 = [ 
Ilsi && IsO : A; # 00 
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Isi : B; # 01 
1SO 3 9 
1 2 #14 
右边 的 注释 (任何 以 # 开 头 到 行 尾 结束 的 文字 都 是 注释 ) 表 明了 sl 和 s0 的 什么 组 合 会 
导致 该 种 情况 会 被 选中 。 可 以 看 到 选择 表达 式 有 时 可 以 简化 ， 因 为 只 有 第 一 个 匹配 的 情况 
才 会 被 选中 。 例 如 ， 第 二 个 表达 式 可 以 写成 !s1， 而 不 用 写 得 更 完整 !s1 && s0， 因 为 为 一 
种 可 能 sl 等 于 0 已 经 出 现在 了 第 一 个 选择 表达 式 中 了 。 类 似 地 ， 第 三 个 表达 式 可 以 写作 
!s0， 而 第 四 个 可 以 简单 地 写成 1。 
来 看 最 后 一 个 例子 ， 假 设 我 们 想 设计 一 个 逻辑 电路 来 找 一 组 字 A、B 和 Cc 中 的 最 小 值 ， 
如 下 图 所 示 : 


用 HCL 来 表达 就 是 : 
word Min3 = [ 
A <=B && A <=C : A; 
B <= A&&B <=C :BB; 
1 : G3 
3 
家 纪 练习 题 4. 11 计算 三 个 字 中 最 小 值 的 HCL 代码 包含 了 4 个 形 如 X<=Y 的 比较 表达 式 。 
重 写 代码 计算 同样 的 结果 ， 但 只 使 用 三 个 比较 。 
请 弹 练习 题 4. 12 号 一 个 电路 的 HCL 代码， 对 于 输入 字 A、B 和 C， 选择 中 间 值 。 也 就 
是 ， 输 出 等 于 三 个 输入 中 居于 最 小 值 和 最 大 值 之 间 的 那个 字 。 
组 合 逻辑 电路 可 以 设计 成 在 字 级 数据 上 执行 许多 不 同类 型 的 操作 。 具 体 的 设计 已 经 超 
出 了 我 们 讨论 的 范围 。 算 术 / 逻 辑 单 元 (ALU) 是 一 种 很 重要 的 组 合 电 路 ， 图 4-15 是 它 的 一 
个 抽象 的 图 示 。 这 个 电路 有 三 个 输入 : 标号 为 A 和 B 的 两 个 数据 输入 ， 以 及 一 个 控制 输 
人 和 人。 根据 控制 输入 的 设置 ， 电 路 会 对 数据 输入 执行 不 同 的 算术 或 逻辑 操作 。 可 以 看 到 ， 这 
个 ALU 中 画 的 四 个 操作 对 应 于 Y86-64 指令 集 支 持 的 四 种 不 同 的 整数 操作 ， 而 控制 值 和 这 
些 操 作 的 功能 码 相 对 应 (图 4-3)。 我 们 还 注意 到 减法 的 操作 数 顺序 ， 是 输入 B 减 去 输入 R。 
之 所 以 这 样 做 ， 是 为 了 使 这 个 顺序 与 subq 指令 的 参数 顺序 一 致 。 


0 1 2 3 
< 入 到 A Y A 区 和 、 
入 A A A 
L .4 L X=—Y L X&kY L i 
U U U U 
X B XxX B X B 又 B 


司 4-15 算术 /逻辑 单元 (ALU)。 根 据 函 数 输 入 的 设置 ， 该 电路 会 执行 四 种 算术 和 人 逻辑 运算 中 的 一 种 


4.2.4 集合 关系 


在 处 理 顺 设计 中 ， 很 多 时 候 都 需要 将 一 个 信号 与 许多 可 能 匹配 的 信号 做 比较 ， 以 此 来 
检测 正在 处 理 的 某 个 指令 代码 是 否 属于 某 一 类 指令 代码 。 下 面 来 看 一 个 简单 的 例子 ， 假 设 
想 从 一 个 两 位 信号 code 中 选择 高 位 和 低位 来 为 图 4-14 中 的 四 路 复 用 器 产生 信号 sl 和 s0， 
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如 下 图 所 示 : 


sl 
code SO : 





Out4 


多 WN DO 


在 这 个 电路 中 ， 两 位 的 信号 code 就 可 以 用 来 控制 对 4 个 数据 字 A、B、C 和 DD 做 选择 。 
根据 可 能 的 code 值 ， 可 以 用 相等 测试 来 表示 信号 sl 和 s0 的 产生 : 


bool sl1 


= 2 || code == 3; 
bool SO = code 


= 1 || code == 3; 
还 有 一 种 更 简洁 的 方式 来 表示 这 样 的 属性 : 当 code 在 集合 {2，3) 中 时 sl 为 1， 而 
code 在 集合 {1，3} 中 时 s0 为 1: 


bool sl1 code in { 2, 3 }: 
bool s0 = code in { 1, 3 }: 


判断 集合 关系 的 通用 格式 是 : 
iexpr in lierzpri sierprs »*** ,ierxpre} 


这 里 被 测试 的 值 iezxpr 和 竺 匹配 的 值 iexpr1 一 iezpbr 都 是 整数 表达 式 。 


4.2.5 存储 器 和 时 钟 


组 合 电 路 从 本 质 上 讲 ， 不 存储 任何 信息 。 相 反 ， 它 们 只 是 简单 地 响应 输入 信和 号， 产生 等 
于 输入 的 某 个 也 数 的 输出 。 为 了 产生 时 序 电路 (sequential circuit)， 也 就 是 有 状态 并 且 在 这 个 
状态 上 进行 计算 的 系统 ,我 们 必须 引入 按 位 存储 信息 的 设备 。 存 储 设 备 都 是 由 同一 个 时 钟 控制 
的 ， 时 钟 是 一 个 周期 性 信和 号， 决定 什么 时 候 要 把 新 值 加 载 到 设备 中 。 考 虑 两 类 存储 器 设备 : 
@ 时 钟 寄存 器 (简称 寄存器) 存储 单个 位 或 字 。 时 钟 信号 控制 寄存 器 加 载 输入 值 。 
@ 随机 访问 存储 器 (简称 内 存 ) 存 储 多 个 字 ， 用 地 址 来 选择 该 读 或 该 写 哪 个 字 。 随 机 访 
问 存储 器 的 例子 包括 : 1) 处 理 需 的 虚拟 内 存 系 统 ， 硬 件 和 操作 系统 软件 结合 起 来 使 
处 理 句 可 以 在 一 个 很 大 的 地 址 空间 内 访问 任意 的 字 ; 2) 寄存器 文件 ， 在 此 ， 寄 存 器 
标识 符 作 为 地 址 。 在 IA32 或 Y86-64 处 理 嚣 中， 寄存器 文件 有 15 个 程序 寄存 髓 (% 
rax~ Sr14)., 
正如 我 们 看 到 的 那样 ， 在 说 到 硬件 和 机 颖 级 编程 时 ， “寄存 器 ”这 个 词 是 两 个 有 细微 
差别 的 事情 。 在 人 硬件 中 ， 寄 存 需 直接 将 它 的 输入 和 输出 线 连接 到 电路 的 其 他 部 分 。 在 机 顺 
级 编程 中 ， 寄 存 咒 代表 的 是 CPU 中 为 数 不 多 的 可 寻 址 的 字 ， 这 里 的 地 址 是 寄存 器 ID。 这 
些 字 通常 都 存在 寄存 右 文 件 中 ， 虽 然 我 们 会 看 到 硬件 有 时 可 以 直接 将 一 个 字 从 一 个 指令 传 
送 到 男 一 个 指令 ， 以 避免 先 写 寄存 器 文件 再 读 出 来 的 延迟 。 需 要 避免 歧义 时 ， 我 们 会 分 别 
称呼 这 两 类 寄存 器 为 “硬件 寄存 器 ”和 “程序 寄存 器 ”。 
图 4-16 更 详细 地 说 明了 一 个 硬件 寄存 器 以 及 它 是 如 何 工作 的 。 大 多 数 时 候 ， 寄 存 需 
都 保持 在 稳定 状态 (用 x 表 示 )， 产 生 的 输出 等 于 它 的 当前 状态 。 信 和 号 沿 着 寄存 器 前 面 的 组 
合 逻 辑 传 播 ， 这 时 ， 产 生 了 一 个 新 的 寄存 器 输入 (用 y 表示 )， 但 只 要 时 钟 是 低 电位 的 ， 寄 
存 器 的 输出 就 仍然 保持 不 变 。 当 时 钟 变 成 高 电位 的 时 候 ， 输 入 信和 号 就 加 载 到 寄存 器 中 ， 成 
为 下 一 个 状态 y， 直到 下 一 个 时 钟 上 升 沿 ， 这 个 状态 就 一 直 是 寄存 需 的 新 输出 。 关 键 是 寄 
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存 器 是 作为 电路 不 同 部 分 中 的 组 合 逻 辑 之 间 的 屏障 。 每 当 每 个 时 钟 到 达 上 升 沿 时 ， 值 才 会 
从 寄存 器 的 输入 传送 到 输出 。 我 们 的 Y86-64 处 理 器 会 用 时 钟 寄存 器 保存 程序 计数 器 
(PC)、 条 件 代 码 (CC) 和 程序 状态 (Stat)。 





状态 =x 状态 =y 
| 和 时 钟 上 升 沿 = sr 
A | 区 


后 4-16 寄存 器 操作 。 寄 存 需 输出 会 一 直 保 持 在 当前 寄存 噩 状态 上 ， 下 到 时 钟 信号 
上 升 。 当 时 钟 上 升 时 ， 寄 存 器 输入 上 的 值 会 成 为 新 的 寄存 器 状态 


下 面 的 图 展示 了 一 个 典型 的 寄存 器 文件 : 





寄存 器 文件 有 两 个 读 端 口 (A 和 B)， 还 有 一 个 写 端 口 (W)。 这 样 一 个 多 端口 随机 访问 
存储 器 允许 同时 进行 多 个 读 和 写 操 作 。 图 中 所 示 的 寄存 器 文件 中 ， 电 路 可 以 读 两 个 程序 寄 
存 器 的 值 ， 同 时 更 新 第 三 个 寄存 器 的 状态 。 每 个 端口 都 有 一 个 地 址 输入 ， 表 明 该 选择 哪个 
程序 寄存 器 ， 另 外 还 有 一 个 数据 输出 或 对 应 该 程序 寄存 髓 的 输入 值 。 地 址 是 用 图 4-4 中 编 
码 表示 的 寄存 顺 标 识 符 。 两 个 读 端 口 有 地 址 输入 srcA 和 srcB(“source A” 和 “source B” 
的 缩写 ) 和 数据 输出 valA 和 valB(“value A” 和 “value B” 的 缩写 ) 。 写 端口 有 地 址 输入 
dstW(“destination W” 的 缩写 ) ， 以 及 数据 输入 valW(“value W” 的 缩写 ) 。 

虽然 寄存 器 文 件 不 是 组 合 电 路 ， 因 为 它 有 内 部 存储 。 不 过 ， 在 我 们 的 实现 中 ， 从 寄存 
器 文件 读数 据 就 好 像 它 是 一 个 以 地 址 为 输入 、 数 据 为 输出 的 一 个 组 合 逻 辑 块 。 当 srcA 或 
srcB 被 设 成 某 个 寄存 器 ID 时 ， 在 一 段 延 迟 之 后 ， 存 储 在 相应 程序 寄存 器 的 值 就 会 出 现在 
valA 或 valB 上 上。 例如， 将 srcA 设 为 3， 就 会 读 出 程序 寄存 器 %rbx 的 值 ， 然 后 这 个 值 就 
会 出 现在 输出 valA 上。 

向 寄存 器 文件 写 入 字 是 由 时 钟 信 号 控制 的 ， 控 制 方式 类 似 于 将 值 加 载 到 时 钟 寄 存 器 。 每 
次 时 钟 上 升 时 ， 输 入 valw 上 的 值 会 被 写 入 输入 dstw 上 的 寄存 器 ID 指示 的 程序 寄存 器 。 当 
dstw 设 为 特殊 的 ID 值 0xF 时 ， 不 会 写 任何 程序 寄存 器 。 由 于 寄存 器 文件 既 可 以 读 也 可 以 写 ， 
一 个 很 自然 的 问题 就 是 “如 果 我 们 试图 同时 读 和 写 同 一 个 寄存 器 会 发 生 什 么 ?” 和 答案 人 简单 明了 : 
如 果 更 新 一 个 寄存 器 ， 同 时 在 读 端 口上 用 同一 个 寄存 器 DD， 我 们 会 看 到 一 个 从 旧 值 到 新 值 的 变 
化 。 当 我 们 把 这 个 寄存 顺 文 件 加 入 到 处 理 硕 设计 中 ， 我 们 保证 会 考虑 到 这 个 属性 的 。 

处 理 器 有 一 个 随机 访问 存储 器 来 存储 程序 数据 ， 如 下 图 所 示 : 


数据 输出 


error 
读 可 
写 a 





地 址 数据 输入 
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这 个 内 存 有 一 个 地 址 输入 ， 一 个 写 的 数据 输入 ， 以 及 一 个 读 的 数据 输出 。 同 寄存 器 文件 
一 样 ， 从 内 存 中 读 的 操作 方式 类 似 于 组 合 逻 辑 : 如 果 我 们 在 输入 address 上 提供 一 个 地 址 ， 
并 将 write 控制 信号 设置 为 0， 那 么 在 经 过 一 些 延 迟 之 后 ， 存 储 在 那个 地 址 上 的 值 会 出 现在 
输出 aata 上 。 如 果 地 址 超出 了 范围 ，error 信号 会 设置 为 1， 否则 就 设置 为 0。 写 内 存 是 由 
时 钟 控制 的 : 我 们 将 address 设置 为 期 望 的 地 址 ， 将 data in 设置 为 期 望 的 值 ， 而 write 设 
置 为 1。 然 后 当 我 们 控制 时 钟 时 ， 只 要 地 址 是 合法 的 ， 就 会 更 新 内 存 中 指定 的 位 置 。 对 于 读 
操作 来 说 ， 如 果 地 址 是 不 合法 的 ，error 信号 会 被 设置 为 1。 这 个 信号 是 由 组 合 逻 辑 产生 的 ， 
因为 所 需要 的 边界 检查 纯粹 就 是 地 址 输入 的 图 数 ， 不 涉及 保存 任何 状态 。 


下 BE 引 现实 的 存储 器 设计 

真实 微 处 理 器 中 的 存储 器 系统 比 我 们 在 设计 中 假想 的 这 个 简单 的 存储 器 要 复杂 得 
多 。 它 是 由 几 种 形式 的 硬件 存储 器 组 成 的 ， 包 括 几 种 随机 访问 存储 器 和 磁盘 ， 以 及 管理 
这 些 设 备 的 各 种 硬件 和 软件 机 制 。 存 储 器 系统 的 设计 和 特点 在 第 6 章 中 描述 。 

不 过 ， 我 们 简单 的 存储 器 设计 可 以 用 于 较 小 的 系统 ， 它 提供 了 更 复杂 系统 的 处 理 器 
和 存储 器 之 间接 口 的 抽象 。 


我 们 的 处 理 咒 还 包括 另外 一 个 只 读 存 储 顺 ， 用 来 读 指 令 。 在 大 多 数 实 际 系统 中 ， 这 两 个 
存储 器 被 合并 为 一 个 具有 双 端 口 的 存储 右 : 一 个 用 来 读 指令 ， 男 一 个 用 来 读 或 者 写 数据 。 


4. 3 Y86-64 的 顺序 实现 


现在 已 经 有 了 实现 Y86-64 处 理 器 所 需要 的 部 件 。 首先 ， 我 们 描述 一 个 称 为 SEQ( “se- 
quential” 顺 序 的 ) 的 处 理 器 。 每 个 时 钟 周期 上 ，SEQ 执行 处 理 一 条 完整 指令 所 需 的 所 有 步 
又 。 不 过 ， 这 需要 一 个 很 长 的 时 钟 周期 时 间 ， 因 此 时 钟 周 期 频率 会 低 到 不 可 接受 。 我 们 开 
发 SEQ 的 目标 就 是 提供 实现 最 终 目 的 的 第 一 步 ， 我 们 的 最 终 目 的 是 实现 一 个 高 效 的 、 流 
水 线 化 的 处 理 器 。 


4.3.1 将 处 理 组 织 成 阶段 


通常 ， 处 理 一 条 指令 包括 很 多 操作 。 将 它们 组 织 成 某 个 特殊 的 阶段 序列 ， 即 使 指令 的 
动作 差异 很 大 ， 但 所 有 的 指令 都 遵循 统一 的 序列 。 每 一 步 的 具体 处 理 取决 于 正在 执行 的 指 
令 。 创 建 这 样 一 个 框架 ， 我 们 就 能 够 设计 一 个 充分 利用 硬件 的 处 理 器 。 下 面 是 关于 各 个 阶 
段 以 及 各 阶段 内 执行 操作 的 简略 描述 : 
e 取 指 (fetch): 取 指 阶段 从 内 存 读 取 指 令 字 节 ， 地 址 为 程序 计数 器 (PC) 的 值 。 从 指 
令 中 抽取 出 指令 指示 符 字 节 的 两 个 四 位 部 分 ， 称 为 icode( 指 令 代码 ) 和 ifun( 指 令 
功能 ) 。 它 可 能 取出 一 个 寄存 器 指示 符 字 节 ， 指 明 一 个 或 两 个 寄存 器 操作 数 指示 符 
rA 和 rB。 它 还 可 能 取出 一 个 四 字 节 常数 字 valc。 它 按 顺序 方式 计算 当前 指令 的 下 
”一 条 指令 的 地 址 valP。 也 就 是 说 ，valP 等 于 PC 的 值 加 上 已 取出 指令 的 长 度 。 
e 译 码 (decode) : 译 码 阶段 从 寄存 器 文件 读 人 最 多 两 个 操作 数 ， 得 到 值 vala 和 /或 valB。 
通常 ， 它 读 人 指令 za 和 rB 字段 指明 的 寄存 器 ， 不 过 有 些 指令 是 读 寄存 器 srsp 的 。 
@ 执行 (execute): 在 执行 阶段 算术/ 人 逻辑 单元 (ALU) 要 么 执行 指令 指明 的 操作 ( 根 
据 ifun 的 值 ) ， 计 算 内 存 引用 的 有 效 地 址 ， 要 么 增加 或 减少 栈 指针 。 得 到 的 值 我 们 
称 为 valE。 在 此 ， 也 可 能 设置 条 件 码 。 对 一 条 条 件 传送 指令 来 说 ， 这 个 阶段 会 检 
验 条 件 码 和 传送 条 件 ( 由 ifun 给 出 )， 如 果 条 件 成 立 ， 则 更 新 目标 寄存 器 。 同 样 ， 
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对 一 条 跳 转 指令 来 说 ， 这 个 阶段 会 决定 是 不 是 应 该 选择 分 支 。 
e 访 存 (memory): 访 存 阶 段 可 以 将 数据 写 人 人 内存， 或 者 从 内 存 读 出 数据 。 读 出 的 值 
为 valM。 

@ 写 回 (write back): 写 回 阶段 最 多 可 以 写 两 个 结果 到 寄存 需 文 件 。 

e 更 新 PC(PC update): 将 PC 设置 成 下 一 条 指令 的 地 址 。 

处 理 器 无 限 循环 ， 执 行 这 些 阶 段 。 在 我 们 简化 的 实现 中 ， 发 生 任何 异常 时 ， 处 理 器 就 
会 停止 : 它 执行 halt 指令 或 非法 指令 ， 或 它 试图 读 或 者 写 非法 地 址 。 在 更 完整 的 设计 中 ， 
处 理 器 会 进入 异常 处 理 模式 ， 开 始 执 行 由 异常 的 类 型 决定 的 特殊 代码 。 

从 前 面 的 讲述 可 以 看 出 ， 执 行 一 条 指令 是 需要 进行 很 多 处 理 的 。 我 们 不 仅 必 须 执 行 指 
令 所 表明 的 操作 ， 还 必须 计算 地 址 、 更 新 栈 指针 ， 以 及 确定 下 一 条 指令 的 地 址 。 幸 好 每 条 
指令 的 整个 流程 都 比较 相似 。 因 为 我 们 想 使 硬件 数量 尽 可 能 少 ， 并 且 最 终 将 把 它 映 射 到 一 
个 二 维 的 集成 电路 芯片 的 表面 ， 在 设计 硬件 时 ， 一 个 非常 简单 而 一 致 的 结构 是 非常 重要 
的 。 降 低 复 杂 度 的 一 种 方法 是 让 不 同 的 指令 共享 尽量 多 的 硬件 。 例 如 ， 我们 的 每 个 处 理 器 
设计 都 只 含有 一 个 算术 /逻辑 单元 ， 根 据 所 执行 的 指令 类 型 的 不 同 ， 它 的 使 用 方式 也 不 同 。 
在 硬件 上 复制 逻辑 块 的 成 本 比 软 件 中 有 重复 代码 的 成 本 大 得 多 。 而 且 在 硬件 系统 中 处 理 许 
多 特殊 情况 和 特性 要 比 用 软件 来 处 理 困 难得 多 。 

我 们 面临 的 一 个 挑战 是 将 每 条 不 同 指令 所 需要 的 计算 放 入 到 上 述 那 个 通用 框架 中 。 我 
们 会 使 用 图 4-17 中 所 示 的 代码 来 描述 不 同 Y86-64 指令 的 处 理 。 图 4-18 一 图 4-21 中 的 表 描 
述 了 不 同 Y86-64 指令 在 各 个 阶段 是 怎样 处 理 的 。 很 值得 仔细 研究 一 下 这 些 表 。 表 中 的 这 
种 格式 很 容易 映射 到 硬件 。 表 中 的 每 一 行 都 描述 了 一 个 信号 或 存储 状态 的 分 配 ( 用 分 配 操 
作 一 来 表示 ) 。 阅 读 时 可 以 把 它 看 成 是 从 上 至 下 的 顺序 求 值 。 当 我 们 将 这 些 计算 映射 到 硬 
件 时 ， 会 发 现 其 实 并 不 需要 严格 按照 顺序 来 执行 这 些 求 值 。 


: 30f20900000000000000 | irmovgd $9, rdx 

: 30f31500000000000000 | irmovg $21, %rbx 

: 6123 | subq %rdx, %rbx # subtract 

: 30f48000000000000000 irmovg $128,%rsp # Problem 4.13 
: 40436400000000000000 rmmovq %rsp, 100(%rbx) # store 

: a02f pushq hrdx # push 

: bOOf Popq %rax # Problem 4.14 
: 734000000000000000 je done # Not taken 


oo NN OO 加 WW NW 一 


‘DD 


done : 
halt 


nh 
OO 


: 00 


om 
NN “一 


: 90 


OC 
wy 


| 
| 
| 
| 
| 
: 804100000000000000 | call proc # Problem 4.18 
| 
| 
| 
| 
| 


bh 
- 心 





图 4-17 Y86-64 指令 序列 示例 。 我 们 会 跟踪 这 些 指令 通过 各 个 阶段 的 处 理 


图 4-18 给 出 了 对 oOP9( 整 数 和 逻辑 运算 ) 、rzrmovq( 寄 存 器 -寄存 器 传送 ) 和 irmovdq( 立 
即 数 - 寄 存 器 传送 ) 类 型 的 指令 所 需 的 处 理 。 让 我 们 先 来 考虑 一 下 整数 操作 。 回 顾 图 4-2， 
可 以 看 到 我 们 小 心地 选择 了 指令 编码 ， 这 样 四 个 整数 操作 (addq、subq、andqg 和 xorqg) 都 
有 相同 的 icode 值 。 我 们 可 以 以 相同 的 步骤 顺序 来 处 理 它 们 ， 除 了 ALU 计算 必须 根据 
ifun 中 编码 的 具体 的 指令 操作 来 设 定 。 


200 


图 4-18 


整数 操作 指令 的 处 理 遵 循 上 面 列 出 的 通用 模式 。 在 取 指 阶段 ， 我 们 不 需要 常数 字 ， 所 

以 valP 就 计算 为 PC 十 2。 在 译 码 阶段 ， 我 们 要 读 两 个 操作 数 。 在 执行 阶段 ， 
指示 符 ifun 一 起 再 提供 给 ALU， 这 样 一 来 valE 就 成 为 了 指令 结果 。 这 个 计算 是 用 表达 
式 valB OP valA 来 表达 的 ， 这 里 oP 代表 ifun 指定 的 操作 。 要 注意 两 个 参数 的 顺序 一 一 
这 个 顺序 与 Y86-64( 和 x86-64) 的 习惯 是 一 致 的 。 例 如 ， 指 令 
R[%Srdx]-R[%rax] 的 值 。 这 些 指 
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icode :ifun *— MiLPC icode :ifun *— MiLPC icode:ifun — MiLPC 
rA:rB — MiLPC 十 1 rA:rB :一 MiLPC 十 1 rA:rB <— MiLPC 十 1 
valC :一 MsLPC 十 2j】 
valP 一 PC 十 2 valP 一 PC 十 2 valP 二 PC 十 10 


译 码 valA 二 RLrA | valA *— RLrA| 
valB 二 RLrB | 
执行 valE +*— valB OP valA valE +— 0 十 valA valE 一 0 十 valC 
0 OC 


EE RLrB Jj*— valE i valE 一 一 一 valE 


更 新 PC PC <*— valP PC +*— valP PC +— valP 






























Y86-64 指令 OPq、rrmovq 和 irmovq 在 顺序 实现 中 的 计算 。 这 些 指 令 计算 了 一 个 值 ， 并 将 结果 
存放 在 寄存 器 中 。 符 号 icode:ifun 表明 指令 字 节 的 两 个 组 成 部 分 ， 而 rA:rB 表明 寄存 器 指示 
符 字 节 的 两 个 组 成 部 分 。 符 号 M [x] 表 示 访 问 ( 读 或 者 写 ) 内 存 位 置 x 处 的 一 个 字 节 ， 而 Ms [x] 表 


示 访 问 八 个 字 节 


寄存 器 rB， 然 后 PC 设 为 vaLlP， 整 个 指令 的 执行 就 结束 了 。 





二 让 跟踪 subq 指令 的 执行 

作为 一 个 例子 ， 让 我 们 来 看 看 一 条 subq 指令 的 处 理 过 程 ， 这 条 指令 是 图 4-17 所 示 
目标 代码 的 第 3 行 中 的 subq 指令 。 可 以 看 到 前 面 两 条 指令 分 别 将 寄存 器 %$rdx 和 %rbx 
初始 化 成 9 和 21。 我 们 还 能 看 到 指令 位 于 地 址 0x014， 由 两 个 字 节 组 成 ， 值 分 别 为 
0x61 和 0x23。 这 条 指令 处 理 的 各 个 阶段 如 下 表 所 示 ， 左 边 列 出 了 处 理 一 个 OPq 指令 的 


通用 的 规则 (图 4-18)， 而 右边 列 出 的 是 对 这 条 具体 指令 的 计算 。 


ee OPqg rA,rB subq Srdx, Srbx 


icode :ifun +*— Mi[ PC] icode :ifun 二 Mi[ 0x014|= 6:1 
rA;rB <— Mi[L PC 十 1] rA:rB <— Mi[ 0x015|]=2:3 



























valP +*— PC 十 2 valP * 一 0x014 十 2 二 0x016 
译 码 valA 一 R[rA| valA +— R[ %rdx|==9 
valB +*— RLrB | valB +— RL %$rbx|= 21 
执行 valE +*— valB OP valA valE «— 21— 9= 12 
Set Gk, ZF <— 0, SF4— 0, OF4*— 0 
区 rm 


Wh ee 
R[rB]— valE RTsrbx]. valE=12 
更 新 PC PC +— valP PC «< valP= 0x016 










它们 和 功能 


subq grax，，grdx 计算 的 是 
令 在 访 存 阶段 什么 也 不 做 ， 而 在 写 回 阶段 ，valE 被 写 入 
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这 人 跟踪 表明 我 们 达到 了 理想 的 效果 ， 和 寄存 器 %$rbx 设 成 了 12， 三 个 条 件 码 都 设 成 
70, Wm PCWNT 2, 


执行 rrmovg 指令 和 执行 算术 运算 类 似 。 不 过 ， 不 需要 取 第 二 个 寄存 器 操作 数 。 我 们 
将 ALU 的 第 二 个 输入 设 为 0， 先 把 它 和 第 一 个 操作 数 相 加 ， 得 到 valE= valA， 然 后 再 把 
这 个 值 写 到 寄存 顺 文 件 。 对 irmova 的 处 理 与 此 类 似 ， 除 了 ALU 的 第 一 个 输入 为 常数 值 
valC。 另 外 ， 因 为 是 长 指令 格式 ， 对 于 izmovd， 程 序 计 数 器 必须 加 10。 所 有 这 些 指令 都 
不 改变 条 件 码 。 
蕊 5 练习 题 4. 13 填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 4 行 上 的 
irmovq 指令 的 处 理 情况 : 


取 指 icode :ifun 二 MLPC ] 











rA:rB 一 MiLPC 十 1 


valC 一 Ms[ PC 十 2]】 
valP :一 PC 十 10 


证 
[EC | 
让 本 在 全 贡生 
更 新 PC | ro-vap | | 

这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 

图 4-19 给 出 了 内 存 读 写 指令 rmmovg 和 mrmovqg 所 需要 的 处 理 。 基 本 流程 也 和 前 面 的 
一 样 ， 不 过 是 用 ALU 来 加 valc 和 valB， 得 到 内 存 操作 的 有 效 地 址 ( 偏 移 量 与 基 址 寄存 嘎 
值 之 和 )。 在 访 存 阶 段 ， 会 将 寄存 顺 值 valA 写 到 内 存 ， 或 者 从 内 存 中 读 出 valLM。 


rrmimovdq rA, D(rB) mrmovg D(rB), rA 


icode:ifun 一 Mi LPC] icode:ifun +*— Mi [PC] 
rA:rB * 一 MiLPC 十 1 rA:rB +— MiLPC++1] 
valC +— MsL PC+2] valC 一 MsLPC 十 2 
valP +*— PC 十 10 valP *— PC 十 10 


译 人 码 valA «— RI[rA] 
valB +— RLrB] valB +*— RLrBJ 
| 































valE -一 ValB 十 valC valE 一 valB 十 valC 
Ms [valE |]*— valA valE «— Ms[ valE] 
Rm 


图 4-19 Y86-64 指令 rmmovq 和 mrmovq 在 顺序 实现 中 的 计算 。 这 些 指 令 读 或 者 写 内 存 


旁 注 | 跟踪 rmmovq 指令 的 执行 


让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 5 行 rmmovq 指令 的 处 理 情况 。 可 以 看 到 ， 前 
面 的 指令 已 将 寄存 器 %rsp 初始 化 成 了 128， 而 $8rbx 仍然 是 subq 指令 (第 3 行 ) 算 出 来 的 
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结果 12。 我 们 还 可 以 看 到 ， 指 令 位 于 地 址 0x020， 有 10 个 字 节 。 前 两 个 的 值 为 0x40 和 
0x43， 后 8 个 是 数字 0x0000000000000064( 十 进 制 数 100) 按 字 节 反 过 来 得 到 的 数 。 各 
个 阶段 的 处 理 如 下 : 

























取 指 icode: ifun 一 MiL PC icode: ifun 一 MiL0x020] 王 4;:0 
rA:rB 一 MLPC 二 1 rA:rB +— Mi[ 0x021|= 4:;3 
valP 一 Ms[ PC++2] valC 二 MsL0x022] 王 100 
valP 二 PC 十 10 valP * 一 0x020 十 10 一 0x02a 
译 码 valA 二 RLrAJ valA 二 RLsrspj] 一 128 
| 


跟踪 记录 表明 这 条 指令 的 效果 就 是 将 128 写 入 内 存 地 址 112， 并 将 PC 加 10。 


图 4-20 给 出 了 处 理 pushq 和 popq 指令 所 需 的 步 又。 它们 可 以 算是 最 难 实现 的 Y86- 
64 指令 了 ， 因 为 它们 既 涉 及 访问 内 存 ， 又 要 增加 或 减少 栈 指针 。 虽 然 这 两 条 指令 的 流程 
比较 相似 ， 但 是 它们 还 是 有 很 重要 的 区 别 。 

















取 指 icode :ifun < MLPC icode: ifun 一 Mi[LPC | 
rA:rB +— Mi[PC+1] rA:rB +— Mi[PC++1] 
valP +*— PC 十 2 valP +*— PC 十 2 
译 码 valA — RLrA] valA 二 RL Srsp| 
valB 一 RLsrspj valB +— RLSrspj 
valE +— valB 十 (一 8) valE +— valB 十 8 
Ms[valE]:— valA valE +*— Ms[ valA] 
写 回 RL $rspl|*— valE RL Srspj*— valE 
R[rA]+— valM 
更 新 PC PC < valP PC «— valP 





| 到 4-20 Y86-64 指令 pushq 和 popq 在 顺序 实现 中 的 计算 。 这 些 指 令 将 值 压 入 或 弹出 栈 


pushq 指令 开始 时 很 像 我 们 前 面 讲 过 的 指令 ， 但 是 在 译 码 阶段 ， 用 %rsp 作为 第 二 个 
寄存 器 操作 数 的 标识 符 ， 将 栈 指针 赋值 为 valB。 在 执行 阶段 ， 用 ALU 将 栈 指针 减 8。 减 
过 8 的 值 就 是 内 存 写 的 地 址 ， 在 写 回 阶段 还 会 存 回 到 %rsp 中 。 将 valE 作为 写 操作 的 地 
址 ， 是 遵循 Y86-64( 和 x86-64) 的 惯例 ， 也 就 是 在 写 之 前 ，pushq 应 该 先 将 栈 指 针 减 去 8， 
即使 栈 指 针 的 更 新 实际 上 是 在 内 存 操 作 完 成 之 后 才 进 行 的 。 


旁 注 跟踪 pushq 指令 的 执行 

让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 6 行 pushgqg 指令 的 处 理 情况 。 此 时 ， 寄 存 
器 Srdx 的 值 为 9， 而 寄存 器 srsp 的 值 为 128。 我 们 还 可 以 看 到 指令 是 位 于 地 址 0x02a， 
有 两 个 字 节 ， 值 分 别 为 0xa0 和 0x2f。 各 个 阶段 的 处 理 如 下 : 
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pushq Srdx 


icode :ifun 二 Mi[ 0x02a|=a:0 
rA:rB +— Mi[ 0x02b|= 2:E£ 


pushqiN | 一 










icode :ifun -一 Mi LPC] 
rA:rB -一 MiLPC 十 i] 








valP * 一 PC 十 2 valP +— 0x02a 十 2 一 0x02c 


valB 二 RLsrspj] valB +— i 128 
执行 | valEevaBt(-8) | vaE 一 128+(-8)-120 
_ 访 让 | MIvael-vaA | Mlle | 
二 加 “| R[arsp]-vaE | RIarspl-io 


更 新 PC 


跟踪 记录 表明 这 条 指令 的 效果 就 是 将 srsp 设 为 120， 将 9 写 入 地 址 120， 并 将 PC 
加 2。 


popq 指令 的 执行 与 pushgq 的 执行 类 似 ， 除 了 在 译 码 阶 段 要 读 两 次 栈 指针 以 外 。 这 样 
做 看 上 去 很 多 余 ， 但 是 我 们 会 看 到 让 vala 和 valB 都 存放 栈 指针 的 值 ， 会 使 后 面 的 流程 
跟 其 他 的 指令 更 相似 ， 增 强 设 计 的 整体 一 致 性 。 在 执行 阶段 ， 用 ALU 给 栈 指针 加 8， 但 
是 用 没 加 过 8 的 原始 值 作为 内 存 操作 的 地 址 。 在 写 回 阶段 ， 要 用 加 过 8 的 栈 指 针 更 新 栈 指 
针 寄 存 器 ， 还 要 将 寄存 器 rA 更 新 为 从 内 存 中 读 出 的 值 。 用 没 加 过 8 的 值 作为 内 存 读 地 址 ， 
保持 了 Y86-64( 和 x86-64) 的 惯例 ，popa 应 该 首先 读 内 存 ， 然 后 再 增加 栈 指针 。 

这 到 练习 题 4. 14 填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 7 行 popq 
指令 的 处 理 情况 : 





popgrA | {TT— POPG Srax 


icode :ifun *— Mi[ PC 


rA:rB — Mi[ PC++1] 





valP 一 PC 十 2 


valA 二 RLSsrspj] 
valB +— RLsrspj 
we Wa | 


RL %rsp]*— valE 
RLrA |]— valM 


这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 

证 本 练习 题 4.15 根据 图 4-20 中 列 出 的 步骤 ， 指 令 pushq gsrsp 会 有 什么 样 的 效果 ? 这 与 
练习 题 4,7 中 确定 的 Y86-64 期 望 的 行为 一 致 吗 ? 

评测 练习 题 4.16 假设 popq 在 写 回 阶段 中 的 两 个 寄存 器 写 操 作 按 照 图 4-20 列 出 的 顺序 进 
行 。popq Srsp 执行 的 效果 会 是 怎样 的 ? 这 与 练习 题 4.8 中 确定 的 Y86-64 期 望 的 行 
为 一 致 吗 ? 
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图 4-21 表明 了 三 类 控制 转移 指令 的 处 理 : 各 种 跳 转 、call 和 ret。 可 以 看 到 ， 我 们 
能 用 同 前 面 指令 一 样 的 整体 流程 来 实现 网 这 些 指令 


icode :ifun — Mi[L PC] icode :ifun 二 ML PC | icode :ifun +— MLPC | 


valC — Mg[ PC 十 1 valC +*— MsLPC 十 1 
valP «— PC 十 9 valP 一 PC 十 9 valP <*— PC 十 ] 


valA — RL %rspj 
valB *— RL S$rspj valB «— RL grsp]j 


valE * 一 valB 十 (一 8) valE * 一 valB 十 8 
Cnd +— Cond(CC, ifun) 


| | Wel | vam Ma 
| | Rp ve RL orop] valE 
更 新 PC PC :一 Cnd?valC:valP PC * 一 valC PC +— valM 


图 4-21 Y86-64 指令 jXX、call 和 ret 在 顺序 实现 中 的 计算 。 这 些 指令 导致 控制 转移 


同 对 整数 操作 一 样 ， 我 们 能 够 以 一 种 统一 的 方式 处 理 所 有 的 跳 转 指令 ， 因 为 它们 的 不 同 
只 在 于 判断 是 否 要 选择 分 支 的 时 候 。 除 了 不 需要 一 个 寄存 器 指示 符 字 节 以 外 ， 跳 转 指令 在 取 
指 和 译 码 阶段 都 和 前 面 讲 的 其 他 指令 类 似 。 在 执行 阶段 ， 检 查 条 件 码 和 跳 转 条 件 来 确定 是 否 
要 选择 分 支 ， 产 生出 一 个 一 位 信号 cnd。 在 更 新 PC 阶段 ， 检 查 这 个 标志 ， 如 果 这 个 标志 为 
1， 就 将 PC 设 为 valC( 跳 转 目标 )， 如 果 为 0， 就 设 为 valP( 下 一 条 指令 的 地 址 )。 我 们 的 表示 法 
Zz?a: b 类 似 于 C 语 句 中 的 条 件 表达 式 一 一 当 x 非 零 时 ， 它 等 于 a， 当 之 为 零 时 ， 等 于 5b。 





= 可 跟踪 je 指令 的 执行 

让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 8 行 je 指令 的 处 理 情况 。subq 指令 (第 3 行 ) 
已 经 将 所 有 的 条 件 码 都 置 为 了 0， 所 以 不 会 选择 分 支 。 该 指令 位 于 地 址 0x02e， 有 9 个 
字 节 。 第 一 个 字 节 的 值 为 0x73， 而 剩 下 的 8 个 字 节 是 数字 0x0000000000000040 按 字 节 
反 过 来 得 到 的 数 ， 也 就 是 跳 转 的 目标 。 各 个 阶段 的 处 理 如 下 : 


| Sex | | je 0x040 


icode :ifun *— MLPC icode :ifun 二 Mi[ 0x02e |= 7:;3 
valC 二 Ms[L PC 十 1 valC +— Ms[ 0x02£ | 二 0x040 
valP <— PC 十 9 valP +— 0x02e 十 9 一 0x037 





Cnd 二 Cond(CC, ifun) Cnd*— Cond((0, 0, 0», 3)=0 


更 新 PC PC 二 Cnd?valC:valP PC 二 0? 0x040:0x037 王 0x037 


就 像 这 个 跟踪 记录 表明 的 那样 ， 这 条 指令 的 效果 就 是 将 PC 加 9。 





有 练习 题 4.17 从 指令 编码 (图 4-2 和 图 4-3) 我 们 可 以 看 出 ，rmmovq 指令 是 一 类 更 通用 
的 、 包 括 条 件 转 移 在 内 的 指令 的 无 条 件 版 本 。 请 给 出 你 要 如 何 修 改 下 面 rrmovq 指令 
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的 步 又， 使 之 也 能 处 理 6 个 条 件 传 送 指 令 。 看 看 jXX 指令 的 实现 (图 4-21) 是 如 何 处 理 
条 件 行为 的 ， 可 能 会 有 所 帮助 。 


icode :ifun 二 MiLPC 
rA:rB 一 MiLPC 二 1 
valP 二 PC 十 2 

valA 一 R[rA| 

valE 二 0 十 valA 


RLrB |+*— valE 
PC + 一 valP 





指令 call 和 ret 与 指令 pushq 和 popq 类 似 ， 除 了 我 们 要 将 程序 计数 器 的 值 人 栈 和 
出 栈 以 外 。 对 指令 cal1， 我 们 要 将 valP， 也 就 是 call 指令 后 紧 跟 着 的 那 条 指令 的 地 址 ， 
压 人 栈 中 。 在 更 新 PC 阶段 , 将 PC 设 为 valC， 也 就 是 调用 的 目的 地 。 对 指令 ret， 在 更 
新 PC 阶段 ， 我 们 将 valM， 即 从 栈 中 取出 的 值 ， 赋 值 给 PC。 
让 练习 题 4. 18 ”填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 9 行 call 
指令 的 处 理 情 况 : 


call Dest call Ox041 

















icode ;ifun *— Mi[ PC | 


valC 一 MsLPC 十 1 
valP :一 PC 十 9 


valB +— RL %$rspj 
valE «— valB 二 (—8) 


Ms [valE |— valP 
RL S$rspl]*— valE 


PC *— valC 


这 条 指令 的 执行 会 怎样 改变 寄存 器 、PC 和 内 存 呢 ? 

我 们 创建 了 一 个 统一 的 框架 ， 能 处 理 所 有 不 同类 型 的 Y86-64 指令 。 虽 然 指 令 的 行为 
大 不 相同 ,但 是 我 们 可 以 将 指令 的 处 理 组 织 成 6 个 阶段 。 现 在 我 们 的 任务 是 创建 硬件 设计 
来 实现 这 些 阶段 ， 并 把 它们 连接 起 来 。 


EEE 跟踪 ret 指令 的 执行 


让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 13 行 ret 指令 的 处 理 情况 。 指 令 的 地 址 是 
0x041， 只 有 一 个 字 节 的 编码 ，0x90。 前 面 的 call 指令 将 %rsp 置 为 了 120， 并 将 返回 
地 址 0x040 存放 在 了 内 存 地 址 120 中 。 各 个 阶段 的 处 理 如 下 : 
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icode :ifun <*— Mi 一 


valP 二 PC 十 1 


valE :一 valB 十 8 


RLsrspj]- 一 valE 





valM +*— Ms[ valA |] valM +— Mg[ 120|]= 0x040 


valA +— RLsrspj valA +*— RL %$rsp|= 120 
valB <*— RL %rsp]j valB 二 RLsrspj 王 120 


更 新 PC 













icode :ifun 一 Mi[ 0x041|= 9:0 


valP +— 0x041 十 1 二 0x042 


valE 二 120 二 8 二 128 


RL Srspl*— 128 


跟踪 记录 表明 这 条 指令 的 效果 就 是 将 PC 设 为 0x040，halt 指令 的 地 址 。 同 时 也 将 


%srsp 置 为 了 128。 


4. 3. 2 ”SEQ 硬件 结构 


实现 所 有 Y86-64 指令 所 需要 的 计算 可 以 
被 组 织 成 6 个 基本 阶段 : 取 指 、 译 码 、 执 行 、 
访 存 、 写 回 和 更 新 PC。 图 4-22 给 出 了 一 个 能 
执行 这 些 计算 的 人 硬件 结构 的 抽象 表示 。 程 序 计 
数 需 放 在 寄存 硕 中 ,在 图 中 左下 角 ( 标 明 为 
“PC”)。 然 后， 信息 沿 着 线 流 动 (多 条 线 组 合 在 
一 起 就 用 宽 一 点 的 灰 线 来 表示 )， 先 同上 ， 再 
向 在 。 同 各 个 阶段 相关 的 硬件 单元 (hardware 
units) 负 责 执行 这 些 处 理 。 在 右边 ， 反 馈线 路 
癌 下 ， 包 括 要 写 到 寄存 规 文 件 的 更 新 值 ， 以 及 
更 新 的 程序 计数 器 值 。 正 如 在 4. 3. 3 节 中 讨论 
的 那样 ， 在 SEQ 中 ， 所 有 硬件 单元 的 处 理 都 
在 一 个 时 钟 周 期 肉 完 成 。 这 张 图 省 略 了 一 些小 
的 组 合 逻 辑 块 ， 还 省 略 了 所 有 用 来 操作 各 个 硬 
件 单元 以 及 将 相应 的 值 路 由 到 这 些 单元 的 控制 
逻辑 。 稍 后 会 补充 这 些 细 市 。 我 们 从 下 往 上 面 
处 理 大 和 流程 的 方法 似乎 有 点 奇怪 。 在 开始 设计 
流水 线 化 的 处 理 右 时 ， 我 们 会 解释 这 么 画 的 原因 。 

人 硬件 单元 与 各 个 处 理 阶 段 相关 联 : 

取 指 :将 程序 计数 需 寄 存 需 作为 地 址 ， 指 
令 内 存 读 取 指令 的 字 节 。PC 增加 需 (CPC incre- 
menter) 计 算 vaLP， 即 增加 了 的 程序 计数 需 。 

译 码 : 寄存 做 文件 有 两 个 该 咒 口 A 和 了 B， 
从 这 两 个 端口 同时 读 寄 存 器 值 valA 和 valB。 





程序 计数 器 新 PC 
(PC ) 更 新 。 JW 
a po yal 2 加 a 
ml al 
a UA EF 
I | ”valE 
Hn 
执行 Cnd ec 
Se 2 
第 Wa 
j srcB 
oe "dstE, dstM| 忆 
lcode, 1.furn Wh 





Wy 


图 4-22 ”SEQ 的 抽象 视图 ， 一 种 顺序 实现 。 指 令 执行 
过 程 中 的 信息 处 理 沿 着 顺 时 针 方向 的 流程 进 
行 ， 从 用 程序 计数 器 (PC) 取 指令 开始 ， 如 图 
中 左下 角 所 示 
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执行 : 执行 阶段 会 根据 指令 的 类 型 ， 将 算术 /逻辑 单元 (ALU) 用 于 不 同 的 目的 。 对 整 
数 操作 ， 它 要 执行 指令 所 指定 的 运算 。 对 其 他 指令 ， 它 会 作为 一 个 加 法 器 来 计算 增加 或 减 
少 栈 指 针 ， 或 者 计算 有 效 地 址 ， 或 者 只 是 简单 地 加 0， 将 一 个 输入 传递 到 输出 。 

条 件 码 寄存 器 CCC) 有 三 个 条 件 码 位 。ALU 负责 计算 条 件 码 的 新 值 。 当 执行 条 件 传送 
指令 时 ， 根据 条 件 码 和 传送 条 件 来 计算 决定 是 否 更 新 目标 寄存 器 。 同 样 。 当 执行 一 条 跳 转 
指令 时 ， 会 根据 条 件 码 和 跳 转 类 型 来 计算 分 支 信 号 Cnd。 

访 存 : 在 执行 访 存 操 作 时 ， 数 据 内 存 读 出 或 写 入 一 个 内 存 字 。 指 令 和 数据 内 存 访问 的 
是 相同 的 内 存 位 置 ， 但 是 用 于 不 同 的 目的 。 

写 回 : 寄存 器 文 件 有 两 个 写 端 口 。 端 口 EE 用 来 写 ALU 计算 出 来 的 值 ， 而 端口 M 用 来 
写 从 数据 内 存 中 读 出 的 值 。 

PC 更 新 : 程序 计数 器 的 新 值 选择 自 : valP， 下 一 条 指令 的 地 址 ; valc， 调用 指令 或 
跳 转 指令 指定 的 目标 地 址 ; valM， 从 内 存 读 取 的 返回 地 址 。 

图 4-23 更 详细 地 给 出 了 实现 SEQ 所 需要 的 硬件 (分 析 每 个 阶段 时 ， 我 们 会 看 到 完整 的 


程序 计数 天 










(PC) 更 新 
访 存 
羽生 /aw TT 
2 B 
3 
泽 但 


instr_valid: 


imem_error: 


: PC 
Wi 


图 4-23 SEQ 的 硬件 结构 ， 一 种 顺序 实现 。 有 些 控 制 信号 以 及 寄存 器 和 控制 字 连 接 没有 画 出 来 


细节 ) 。 我 们 看 到 一 组 和 前 面 一 样 的 硬件 单元 ， 但 是 现在 线路 看 得 更 清楚 了 。 这 幅 图 以 及 
其 他 的 硬件 图 都 使 用 的 是 下 面 的 画图 惯例 。 
e@ 白色 方 框 表示 时 钟 寄存 器 。 程 序 计 数 器 PC 是 SEQ 中 唯一 的 时 钟 寄 存 融 
@ 浅 蓝 色 方 框 表示 硬件 单元 。 这 包括 内 存 、ALU 等 等 。 在 我 们 所 有 的 处 理 器 实现 中 ， 
都 会 使 用 这 一 组 基本 的 单元 。 我 们 把 这 些 单元 当 作 “ 黑 盒 子 ”， 不 关心 它们 的 细节 
设计 。 

@ 控制 晕 辑 块 用 灰色 圆 角 撼 形 表示 。 这 些 块 用 来 从 一 组 信号 源 中 进行 选择 ， 或 者 用 来 

计算 一 些 布尔 水 数 。 我 们 会 非常 详细 地 分 析 这 些 块 ， 包 括 给 出 HCL 描述 。 

@ 线路 的 名 字 在 白色 圆圈 中 说 明 。 它 们 只 是 线路 的 标识 ， 而 不 是 什么 硬件 单元 。 

@ 宽度 为 字 长 的 数据 连接 用 中 等 粗 度 的 线 表 示 。 每 条 这 样 的 线 实际 上 都 代表 一 簇 64 

根 线 ， 并 列 地 连 在 一 起 ， 将 一 个 字 从 硬件 的 一 个 部 分 传送 到 男 一 部 分 。 
@ 宽度 为 字 节 或 更 罕 的 数据 连接 用 细 线 表示 。 根 据 线 上 要 携带 的 值 的 类 型 ， 每 条 这 样 
的 线 实 际 上 都 代表 一 复 4 根 或 8 根 线 。 

@ 单个 位 的 连接 用 虚线 来 表示 。 这 代表 必 片 上 单元 与 块 之 间 传 递 的 控制 值 。 

图 4-18 一 图 4-21 中 所 有 的 计算 都 有 这 样 的 性 质 ， 每 一 行 都 代表 某 个 值 的 计算 (如 
valP)， 或 者 激活 某 个 硬件 单元 (如 内 存 )。 图 4-24 的 第 二 栏 列 出 了 这 些 计 算 和 动作 。 除 了 
我 们 已 经 讲 过 的 那些 信号 以 外 ， 还 列 出 了 四 个 寄存 器 ID 信号 : srcA，valA 的 源 ; srcB， 
valB 的 源 ; dstE， 写 入 valE 的 寄存 器 ; 以 及 dstM， 写 人 valM 的 寄存 器 。 


LE | ee nzmovg DCB)， A 


icode :ifun icode:ifun +*— MiLPC | icode :ifun +*— MiLPC | 
rA,rB rA;rB <*— Mi lL PC+1| rA:rB 一 Mi[LPC 二 1 
valC valC «— MsLPC 十 2 
valP valP 二 PC 十 2 valP 二 PC 十 10 


译 码 valA, SrcA valA +— RI[rA] 
valB, srcB valB +*— RLrB | valB <— RLrB | 


执行 valE valE 一 valB OP valA valE *— valB 十 valC 
Cond. codes Set CC 


Er Tr 生生 生生 ET 


E port, dstE RLrB |*— valE 
M ia dstM 让 valM 


更 新 PC | PL Poovap | +*— valP Povap | *— valP 
图 4-24 ee 第 二 栏 标识 出 SEQ 阶段 中 正在 被 计算 的 值 ， 
或 正在 被 执行 的 操作 。 以 指令 oPg 和 mrmovd 的 计算 作为 示例 

图 中 ， 右 边 两 栏 给 出 的 是 指令 OPdg 和 mrmovg 的 计算 ， 来 说 明 要 计算 的 值 。 要 将 这 些 
计算 映射 到 硬件 上 ， 我 们 要 实现 控制 逻辑 ， 它 能 在 不 同 硬件 单元 之 间 传 送 数 据 ， 以 及 操作 
这 些 单元 ， 使 得 对 每 个 不 同 的 指令 执行 指定 的 运算 。 这 就 是 控制 逻辑 块 的 目标 ， 控 制 逻辑 
块 在 图 4-23 中 用 灰色 圆 角 方 框 表示 。 我 们 的 任务 就 是 依次 经 过 每 个 阶段 ， 创 建 这 些 块 的 
详细 设计 。 


4.3.3 SEQ 的 时 友 


在 介绍 图 4-18 一 图 4-21 的 表 时 ， 我们 说 过 要 把 它们 看 成 是 用 程序 符号 写 的 ， 那 些 赋 
值 是 从 上 到 下 顺序 执行 的 。 然 而 ,图 4-23 中 硬件 结构 的 操作 运行 根本 完全 不 同 ， 一 个 时 
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钟 变化 会 引发 一 个 经 过 组 合 逻 辑 的 流 ， 来 执行 整个 指令 。 让 我 们 来 看 看 这 些 硬件 怎样 实现 
表 中 列 出 的 这 一 行为 。 

SEQ 的 实现 包括 组 合 逻 辑 和 两 种 存储 右 设 备 : 时 钟 寄 存 右 (程序 计数 器 和 条 件 码 寄存 
人 舌 ) ， 随 机 访问 存储 融 ( 寄 存 需 文件 、 指 令 内 存 和 数据 内 存 )。 组 合 逻 辑 不 需要 任何 时 序 或 
控制 一 一 只 要 输入 变化 了 ， 值 就 通过 逻辑 门 网 络 传播 。 正 如 提 到 过 的 那样 ， 我 们 也 将 读 随 
机 访问 存储 天 看 成 和 组 合 逻辑 一 样 的 操作 ， 根 据 地 址 输入 产生 输出 字 。 对 于 较 小 的 存储 需 
来 说 (例如 寄存 更 文件 )， 这 是 一 个 合理 的 假设 ,而 对 于 较 大 的 电路 来 说 ， 可 以 用 特殊 的 时 
钟 电路 来 模拟 这 个 效果 。 由 于 指令 内 存 只 用 来 读 指令 ， 因 此 我 们 可 以 将 这 个 单元 看 成 是 组 
合 逻 辑 。 

现在 还 剩 四 个 硬件 单元 需要 对 它们 的 时 序 进 行 明确 的 控制 一 一 程序 计数 器 、 条 件 码 寄 
仓 希 、 数 据 内 存 和 寄存 侨 文 件 。 这 些 单元 通过 一 个 时 钟 信 号 来 控制 ， 它 触发 将 新 值 装载 到 
奇 存 磊 以 及 将 值 写 到 随机 访问 存储 硕 。 每 个 时 钟 周期 ， 程 序 计 数 器 都 会 装载 新 的 指令 地 
址 。 只 有 在 执行 整数 运算 指令 时 ， 才 会 装载 条 件 码 寄存 器 。 只 有 在 执行 rmmovq、pushq 
或 call 指令 时 ， 才 会 写 数据 内 存 。 寄 存 器 文件 的 两 个 写 端 口 允许 每 个 时 钟 周期 更 新 两 个 
程序 寄存 器 ， 不 过 我 们 可 以 用 特殊 的 寄存 器 ID 0xF 作为 端口 地 址 ， 来 表明 在 此 端口 不 应 
该 执行 写 操 作 。 

要 控制 处 理 融 中 活动 的 时 序 ， 只 需要 寄存 顺和 内 存 的 时 钟 控 制 。 人 硬件 获得 了 如 图 418 一 图 
4-21 的 表 中 所 示 的 那些 赋值 顺序 执行 一 样 的 效果 ， 即 使 所 有 的 状态 更 新 实际 上 同时 发 生 ， 
且 只 在 时 钟 上 升 开始 下 一 个 周期 时 。 之 所 以 能 保持 这 样 的 等 价 性 ， 是 由 于 Y86-64 指令 集 
的 本 质 ， 因 为 我 们 遵循 以 下 原则 组 织 计 算 

原则 : 从 不 回 读 

处 理 器 从 来 不 需要 为 了 完成 一 条 指令 的 执行 而 去 读 由 该 指令 更 新 了 的 状态 。 

这 条 原则 对 实现 的 成 功 来 说 至 关 重 要 。 为 了 说 明 问 题 ， 假 设 我 们 对 pushq 指令 的 实现 
是 先 将 srsp 减 8， 再 将 更 新 后 的 %rsp 值 作 为 写 操作 的 地 址 。 这 种 方法 同 前 面 所 说 的 那个 
原则 相 违 背 。 为 了 执行 内 存 操 作 ， 它 需要 先 从 寄存 右 文 件 中 读 更 新 过 的 栈 指针 。 然 而 ,我 
们 的 实现 (图 4-20) 产 生出 减 后 的 栈 指针 值 ， 作 为 信号 valE， 然后 再 用 这 个 信号 既 作 为 寄 
存货 写 的 数据 ， 也 作为 内 存 写 的 地 址 。 因 此 ， 在 时 钟 上 升 开 始 下 一 个 周期 时 ， 处 理 器 就 可 
以 同时 执行 寄存 硕 写 和 内 存 写 了 。 

再 举 个 例子 来 说 明 这 条 原则 ， 我们 可 以 看 到 有 些 指令 (整数 运算 ) 会 设置 条 件 码 ， 有 些 
指令 ( 跳 转 指令 ) 会 谈 取 条 件 码 ， 但 没有 指令 必须 既 设 置 又 读 取 条 件 码 。 虽 然 要 到 时 钟 上 升 
开始 下 一 个 周期 时 ， 才 会 设置 条 件 码 ， 但 是 在 任何 指令 试图 读 之 前 ， 它 们 都 会 更 新 。 

以 下 是 汇编 代码 ， 左 边 列 出 的 是 指令 地 址 ， 图 4-25 给 出 了 SEQ 硬件 如 何 处 理 其 中 第 
3 和 第 4 行 指令 : 

1 Ox000: irmovd $Ox100,%rbx  # %rbx <-—- Ox100 
Ox00a: irmovg $0x200 ,prdx  # hrdx <-- Ox200 
Ox014: addq hrdx,hrbx # Wrbx <-- Ox300 CC <-—- 000 
Ox016: je dest # Not taken 
OxO1lf: rmmovg %rbx,0(%rdx) # MLOx200] <-- Ox300 
Ox029: dest: halt 

标号 为 1~4 的 各 个 图 给 出 了 4 个 状态 单元 ,还 有 组 合 逻辑 ， 以 及 状态 单元 之 间 的 连 
接 。 组 合 逻 辑 被 条 件 码 寄存 器 环绕 着 ， 因 为 有 的 组 合 逻辑 (例如 ALU) 产 生 输 入 到 条 件 码 
寄存 器 ， 而 其 他 部 分 (例如 分 支 计 算 和 PC 选择 逻辑 ) 又 将 条 件 码 寄存 器 作为 输入 。 图 中 寄 
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存 右 文件 和 数据 内 存 有 独立 的 读 连 接 和 写 连 接 ， 因 为 读 操作 沿 着 这 些 单元 传播 ， 就 好 像 它 
们 是 组 合 逻 辑 ， 而 写 操作 是 由 时 钟 控制 的 。 


< 周期 1 周期 2 周期 3 周期 4 


名 昌 @ 


周期 1: | 0x000: irmovgq $sx100,%rbx 井 Srbx <-- 0x100 


时 钟 


周期 2: | ,0x00a: irmovg $0x200,%rbx  ， 闲 Srdx <-- 0x200 
周期 3: | 0x014 addq Srdx,$rbx # S$rbx <-- 0x300 CC <-- 000 
周期 4: : to Me 


周期 5: | 0x01f: rmmovg %rbx;0(%rdx) # MI[Ox200] <-- 0x300 





中 周期 3 开始 时 @) 周 期 3 结束 时 





图 4-25 跟踪 SEQ 的 两 个 执行 周期 。 每 个 周期 开始 时 ， 状 态 单元 (程序 计数 器 、 条 件 码 寄存 
器 、 寄 存 器 文件 以 及 数据 内 存 ) 是 根据 前 一 条 指令 设置 的 。 信 号 传播 通过 组 合 逻 辑 ， 
创建 出 新 的 状态 单元 的 值 。 在 下 一 个 周期 开始 时 ， 这 些 值 会 被 加 载 到 状态 单元 中 


图 4-25 中 的 不 同 颜色 的 代码 表明 电路 信号 是 如 何 与 正在 被 执行 的 不 同 指令 相 联系 的 。 
我 们 假设 处 理 是 从 设置 条 件 码 开始 的 ， 按 照 ZF、SF 和 OF 的 顺序 ， 设 为 100。 在 时 钟 周 
期 3 开始 的 时 候 ( 点 1)， 状 态 单元 保持 的 是 第 二 条 irmovgq 指令 ( 表 中 第 2 行 ) 更 新 过 的 状 
态 ， 该 指令 用 浅 灰 色 表 示 。 组 合 逻 辑 用 白色 表示 ， 表 明 它 还 没有 来 得 及 对 变化 了 的 状态 做 
出 反应 。 时 钟 周期 开始 时 ， 地 址 0x014 载 人 程序 计数 硕 中 。 这 样 就 会 取出 和 处 理 addq 指 
令 ( 表 中 第 3 行 )。 值 沿 着 组 合 逻 辑 流 动 ， 包 括 读 随机 访问 存储 器 。 在 这 个 周期 末尾 (点 2)， 
组 合 逻 辑 为 条 件 码 产生 了 新 的 值 (000)， 程 序 寄 存 器 srbx 的 更 新 值 ， 以 及 程序 计数 顺 的 新 
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值 (0x016)。 在 此 时 ， 组合 逻 辑 已 经 根据 addq 指令 被 更 新 了 ,但 是 状态 还 是 保持 着 第 二 
条 irmovq 指令 (用 浅 灰 色 表 示 ) 设 置 的 值 。 

当时 钟 上 升 开 始 周期 4 时 (点 3)， 会 更 新 程序 计数 器 、 寄 存 器 文件 和 条 件 码 寄存 顺 ， 
因此 我 们 用 蓝 色 来 表示 ， 但 是 组 合 逻 辑 还 没有 对 这 些 变化 做 出 反应 ， 所 以 用 白色 表示 。 在 
这 个 周期 内 ， 会 取出 并 执行 je 指令 ( 表 中 第 4 行 )， 在 图 中 用 深 灰 色 表 示 。 因 为 条 件 码 ZF 
为 0， 所 以 不 会 选择 分 支 。 在 这 个 周期 末尾 (点 4)， 程序 计数 器 已 经 产生 了 新 值 0x01f。 
组 合 逻 辑 已 经 根据 je 指令 (用 深 灰 色 表 示 ) 被 更 新 过 了 ， 但 是 直到 下 个 周期 开始 之 前 ， 状 
态 还 是 保持 着 addq 指令 (用 蓝 色 表示 ) 设 置 的 值 。 

如 此 例 所 示 ， 用 时 钟 来 控制 状态 单元 的 更 新 ， 以 及 值 通 过 组 合 逻辑 来 传播 ， 足 够 控制 
我 们 SEQ 实现 中 每 条 指令 执行 的 计算 了 。 每 次 时 钟 由 低 变 高 时 ， 处 理 器 开始 执行 一 条 新 


指令 。 
4. 3. 4 ” SEQ 阶段 的 实现 


本 节 会 设计 实现 SEQ 所 需要 的 控制 逻辑 块 的 HCL 描述 。 完 整 的 SEQ 的 HCL 描述 请 
参见 网 络 旁 注 ARCH:HCL。 在 此 ， 我 们 给 出 一 些 例子 ， 而 其 他 的 作为 练习 题 。 建 议 你 做 
做 这 些 练习 来 检验 你 的 理解 ， 即 这 些 块 是 如 何 与 不 同 指令 的 计算 需求 相 联系 的 。 

我 们 没有 讲 的 那 部 分 SEQ 的 HCL 描述 ， 是 不 同 整数 和 布尔 信号 的 定义 ， 它 们 可 以 作 
为 HCL 操作 的 参数 。 其 中 包括 不 同 硬件 信号 的 名 字 ， 以 及 不 同 指令 代码 、 功 能 码 、 寄 存 
器 名 字 、ALU 操作 和 状态 码 的 常数 值 。 只 列 出 了 那些 在 控制 逻辑 中 必须 被 显 式 引 用 的 常 
数 。 图 4-26 列 出 了 我 们 使 用 的 和 常数。 按照 习惯 ， 常 数值 都 是 大 写 的 。 


ET 





IHALT halt 指令 的 代码 
INOP nop 指令 的 代码 
TITRRMOVQ rrmovgq 指令 的 代码 
IIRMOVO irmovg 指令 的 代码 
IRMMOVO rmmovq 指令 的 代码 
IMRMOVQ mrmovqg 指令 的 代码 
IOPL 整数 运算 指令 的 代码 
IJXX 跳 转 指令 的 代码 
ICALL call 指令 的 代码 
IRET ret 指令 的 代码 
IPUSHQ pushq 指令 的 代码 
IPOPOQ popq 指令 的 代码 
FNONE 默认 功能 码 
RRSP s rsp 的 寄存 融 ID 
RNONE 表明 没有 寄存 器 文件 访问 
ALUADD 加 法 运算 的 功能 
SAOK 四 正身 操作 状态 码 
SADR 四 地址 异常 状态 码 
SINS @) 非 法 指令 异常 状态 码 
SHLT @halt 状态 码 

图 4-26 ”HCL 描述 中 使 用 的 党 数值。 这些 值 表示 的 是 指令 、 功 能 码 、 寄 存 需 ID、 

ALU 操作 和 状态 码 的 编码 


除了 图 4-18 一 图 4-21 中 所 示 的 指令 以 外 ， 还 包括 了 对 nop 和 halt 指令 的 处 理 。nop 
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指令 只 是 简单 地 经 过 各 个 阶段 ， 除 了 要 将 PC 加 1， 不 进行 任何 处 理 。halt 指令 使 得 处 理 
器 状态 被 设置 为 HLT， 导 致 处 理 器 停止 运行 。 

1. 取 指 阶段 

如 图 4-27 所 示 ， 取 指 阶段 包括 指令 内 存 硬 件 单元 。 以 PC 作为 第 一 个 字 节 ( 字 节 0) 的 
地 址 ， 这 个 单元 一 次 从 内 存 读 出 10 个 字 icode ifun rA 虽 valC valP 


方 。 第 一 个 字 节 被 解释 成 指令 字 节 ，( 标 
号 为 “Split” 的 单元 ) 分 为 两 个 4 位 的 
数 。 然 后 ， 标 号 为 “icode” 和 “ifun” 
的 控制 逻辑 块 计算 指令 和 功能 码 ， 或 者 
使 之 等 于 从 内 存 读 出 的 值 ， 或 者 当 指 令 
地 址 不 合法 时 (由 信号 imem_error 指 
明 )， 使 这 些 值 对 应 于 nop 指令 。 根 据 
icode 的 值 ， 我 们 可 以 计算 三 个 一 位 的 
信号 (用 虚线 表示 ): 

instr valid: 这 个 字 节 对 应 于 一 





imem_error 


个 合法 的 Y86-64 指令 吗 ? 这 个 信号 用 来 区 
发 现 不 合法 的 指令 。 pc 
need regids: 这 个 指令 包括 一 个 图 4-27 SEQ 的 取 指 阶段 。 以 PC 作为 起 始 地 址 ， 从 指令 
寄存 器 指示 符 字 节 吗 ? 内 存 中 读 出 10 个 字 节 。 根 据 这 些 字 节 ， 我 们 
need valc: 这 个 指令 包括 一 个 常 产生 出 各 个 指令 字段 。PC 增加 模块 计算 信和 号 
数字 吗 ? valP 


( 当 指 令 地 址 越界 时 会 产生 的 ) 信 号 instr valid 和 imem error 在 访 存 阶段 被 用 来 
产生 状态 码 。 

让 我 们 再 来 看 一 个 例子 ，need regids 的 HCL 描述 只 是 确定 了 icode 的 值 是 否 为 一 
条 带 有 寄存 器 指示 值 字 节 的 指令 。 


bool need_regids = 
icode in { IRRMOVQ, IOPQ, IPUSHQ, IPOPQ, 
IIRMOVQ, IRMMOVQ, IMRMOVQ }; 


度 汉 练习 题 4.19 写 出 SEQ 实现 中 信号 need valc 的 HCL 代码 。 

如 图 4-27 所 示 ， 从 指令 内 存 中 读 出 的 剩 下 9 个 字 节 是 寄存 器 指示 符 字 节 和 常数 字 
的 组 合 编码 。 标 号 为 “Align” 的 硬件 单元 会 处 理 这 些 字 节 ， 将 它们 放 人 寄存 器 字段 和 
稼 数字 中 。 当 被 计算 出 的 信号 need regids 为 1 时 ， 字 节 1 被 分 开 装 人 寄存 器 指示 符 
rA 和 rB 中。 否则， 这 两 个 字段 会 被 设 为 0xF(CRNONE)， 表 明 这 条 指令 没有 指明 寄存 器 。 
回想 一 下 (图 4-2)， 任 何 只 有 一 个 寄存 需 操 作 数 的 指令 ， 寄 存 器 指示 值 字 节 的 另 一 个 字 
段 都 设 为 0xF(RNONE)。 因 此 ， 可 以 将 信号 rA 和 rB 看 成 ， 要么 放 着 我 们 想 要 访问 的 寄 
存 胡 ， 要 么 表明 不 需要 访问 任何 寄存 右 。 这 个 标号 为 “Align” 的 单元 还 产生 常数 字 
valC。 根 据 信号 neeqd regids 的 值 ， 要 么 根据 字 节 1 一 8 来 产生 valCc， 要 么 根据 字 节 2 一 
9 来 产生 。 

PC 增加 顺 硬 件 单元 根据 当前 的 PC 以 及 两 个 信号 need_regids 和 need valc 的 值 ， 
产生 信号 valP。 对 于 PC 值 p、neeqd regids 值 r 以 及 need valc 值 i, 增加 器 产生 值 
让 1 
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2. 译 码 和 写 回 阶段 

图 4-28 给 出 了 SEQ 中 实现 译 码 和 写 回 阶段 的 逻辑 的 详细 情况 。 把 这 两 个 阶段 联系 在 
一 起 是 因为 它们 都 要 访问 寄存 器 文件 。 

寄存 器 文件 有 四 个 端口 。 它 支持 同时 进行 两 个 读 ( 在 端口 A 和 B 上 ) 和 两 个 写 ( 在 端口 
E 和 M 上 )。 每 个 端口 都 有 一 个 地 址 连接 和 一 个 数据 Cnd valA valB valM valE 
连接 ， 地 址 连接 是 一 个 寄存 器 ID， 而 数据 连接 是 一 
组 64 根 线 路 ， 既 可 以 作为 寄存 硕 文 件 的 输出 字 ( 对 读 
端口 来 说 ) ， 也 可 以 作为 它 的 输入 字 ( 对 写 端 口 来 说 )。 
两 个 读 端 口 的 地 址 输入 为 srcA 和 srcB， 而 两 个 写 端 
口 的 地 址 输入 为 astE 和 dstM。 如 果 某 个 地 址 端口 上 
的 值 为 特殊 标识 符 0xF(RNONE)， 则 表明 不 需要 访问 
寄存 需 









A B 


寄存 器 文件 
dstE dstM srcA srcB 


根据 指令 代码 icode 以 及 寄存 器 指示 值 rA 和 icode rA rB 
rB， 可 能 还 会 根据 执行 阶段 计算 出 的 cna 条 件 信 和 号， 风 /28 SEQ 的 译 码 和 写 回 阶段 。 指 令 
图 4-28 底部 的 四 个 块 产生 出 四 个 不 同 的 寄存 器 文件 的 字段 译 码 ， 产 生 寄 存 器 文件 使 用 
寄存 器 ID。 寄 存 器 ID srcA 表明 应 该 读 哪 个 寄存 器 以 eel ee nr De las 
产生 valA。 所 需要 的 值 依赖 于 指令 类 型 ， 如 图 4-18~ Ee 
图 4-21 中 译 码 阶段 第 一 行 中 所 示 。 将 所 有 这 些 条 目 都 valB。 两 个 写 回 值 valg 和 
整合 到 一 个 计算 中 就 得 到 下 面 的 srca 的 HCL 描述 valM 作 为 写 操作 的 数据 


(回想 RRSP 是 srsp 的 寄存 器 ID) : 


word srcA = |[ 
icode im { IRRMOVQ, IRMMOVQ, IOPQ, IPUSHQ } : rA 
icode in { IPOPQ, IRET } : RRSP; 
1 : RNONE; # Don't need register 

]; 


匡 对 练习 题 4. 20 寄存 器 信号 srcB 表明 应 该 读 哪 个 寄存 器 以 产生 信号 valB。 所 需要 的 
值 如 图 4-18 一 图 4-21 中 译 码 阶段 第 二 步 所 示 。 写 出 srcB 的 HCL 代码 。 
寄存 器 ID dstE 表明 写 端 口 下 的 目的 寄存 器 ， 计 算出 来 的 值 valE 将 放 在 那里 。 
图 4-18 一 图 4-21 写 回 阶段 第 一 步 表 明了 这 一 点 。 如 果 我 们 暂时 忽略 条 件 移动 指令 ， 综 合 所 
有 不 同 指令 的 目的 寄存 峰 ， 就 得 到 下 面 的 astE 的 HCL 描述 : 


# WARNING: Conditional move not implemented correctly here 
word dstE = [ 

icode in { IRRMOVQ } : rB 

icode in { IIRMOVQ, IOPQ} : IrB 

icode in { IPUSHQ, IPOPQ, ICALL, IRET 上 : RRSP; 

1 : RNONE; # Don't write any register 
]; 


我 们 查看 执行 阶段 时 ， 会 重新 审视 这 个 信和 号， 看 看 如 何 实现 条 件 传送 。 

ES 练习 题 4.21 寄存 器 ID dstM 表 明 写 端 吕 M 的 目的 寄存 器 ， 从 内 存 中 读 出 来 的 值 
valM 将 放 在 那里 ， 如 图 4-18 一 图 4-21 中 写 回 阶段 第 二 步 所 示 。 写 出 dstM 的 HCL 
做 移 。 

党 练习 题 4.22 只 有 popq 指令 会 同时 用 到 害 存 器 文件 的 两 个 写 端 口 。 对 于 指令 popq 
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srsp， 上 和 M 两 个 写 端 口 会 用 到 同一 个 地 址 ， 但 是 写 入 的 数据 不 同 。 为 了 解决 这 个 
冲突 ， 必 须 对 两 个 写 端 口 设 立 一 个 优先 级 ， 这 样 一 来 ， 当 同一 个 周期 内 两 个 写 端 口 都 
试图 对 一 个 寄存 器 进行 写 时 ， 只 有 较 高 优先 级 端口 上 的 写 才 会 发 生 。 那 么 要 实现 练习 
题 4. 8 中 确定 的 行为 ， 哪 个 端口 该 具有 较 高 的 优先 级 呢 ? 
3. 执行 阶段 Cnd valE 
执行 阶段 包括 算术 /逻辑 单元 (ALU)。 这 个 单 i 
元 根据 alufun 信号 的 设置 ， 对 输入 aluA 和 aluB 
执行 ADD、SUBTRACT、AND 或 EXCLUSIVE- 
OR 运算 。 如 图 4-29 所 示 ， 这 些 数据 和 控制 信号 
是 由 三 个 控制 块 产生 的 。ALU 的 输出 就 是 valE 
信号 。 
在 图 4-18 一 图 4-21 中 ， 执 行 阶段 的 第 一 步 就 





是 每 条 指令 的 ALU 计算 。 列 出 的 操作 数 aluB 在 icode ifun valC valA valB 

前 面 ， 后面 是 aluA， 这 样 是 为 了 保证 subgqg 指令 图 4-29 SEQ 执行 阶段 。ALU 要 么 为 整数 
是 valB 减 去 valA。 可 以 看 到 ,根据 指令 的 类 型 ， a 要 么 作为 加 法 
alua 的 值 可 以 是 valA、valc， 或 者 是 一 8 或 十 8。 De ge 
因此 我 们 可 以 用 下 面 的 方式 来 表达 产生 alua 的 控 否 该 选择 分 支 

制 块 的 行为 : 


Word aluA = [ 
icode in { IRRMOVQ, IOPQ }+ : valA; 
icode in { IIRMOVQ, IRMMOVQ, IMRMOVQ } : valC; 
icode in { ICALL, IPUSHQ } : -8; 
icode in { IRET, IPOPQ } : 8; 
# Other instructions don't need ALU 
Js 
启 弄 练 习题 4. 23 根据 图 4-18 一 图 4-21 中 执行 阶段 第 一 步 的 第 一 个 操作 数 ， 写 出 SEQ 中 
信号 aluB 的 HCL 描述 。 
观察 ALU 在 执行 阶段 执行 的 操作 ， 可 以 看 到 它 通常 作为 加 法 器 来 使 用 。 不 过 ， 对 于 
oPq 指令 ， 我 们 希望 它 使 用 指令 ifun 字段 中 编码 的 操作 。 因 此 ， 可 以 将 ALU 控制 的 
HCL 摘 述 写成 : 
word alufun = [ 
icode == IOPQ : ifun; 
1 : ALUADD ; 
] 
执行 阶段 还 包括 条 件 码 寄存 器 。 每 次 运行 时 ，ALU 都 会 产生 三 个 与 条 件 码 相关 的 信 
号 一 一 零 、 符 号 和 浇 出 。 不 过 ， 我 们 只 和 布 望 在 执行 oPa 指令 时 才 设 置 条 件 码 。 因 此 产生 了 
一 个 信号 set_cc 来 控制 是 否 该 更 新 条 件 码 寄存 占 : 
bool set_cc = icode in { IOPQ }; 


标号 为 “cond” 的 硬件 单元 会 根据 条 件 码 和 功能 码 来 确定 是 否 进行 条 件 分 支 或 者 条 件 
数据 传送 (图 4-3)。 它 产生 信号 cnd， 用 于 设置 条 件 传送 的 dstE， 也 用 在 条 件 分 支 的 下 一 
个 PC 人 逻辑 中 。 对 于 其 他 指令 ， 取决 于 指令 的 功能 码 和 条 件 码 的 设置 ，cnd 信号 可 以 被 设 
置 为 1 或 者 0。 但 是 控制 逻辑 会 忽略 它 。 我 们 省 略 这 个 单元 的 详细 设计 。 


第 4 草 处 理 器 体系 结构 28] 


证 纲 练习 题 4. 24 条 件 传 送 指令 (简称 cmovxX) 的 指令 代码 为 IRRMOVO。 如 图 4-28 所 示 ， 
我 们 可 以 用 执行 阶段 中 产生 的 Cnd 信号 实现 这 
些 指 令 。 修 改 dstE 的 HCL 代码 以 实现 这 此 
指令 。 
4. 访 存 阶段 相 
访 存 阶段 的 任务 就 是 读 或 者 写 程序 数据 。 如 nstvard : 
图 4-30 所 示 ， 两 个 控制 块 产生 内 存 地 址 和 内 存 输入 menero 
数据 (为 写 操 作 ) 的 值 。 男 外 两 个 块 产生 表明 应 该 执 
行 读 操 作 还 是 写 操 作 的 控制 信号 。 当 执行 读 操作 时 ， 
数据 内 存 产 生 值 valM。 
图 4-18 一 图 4-21 的 访 存 阶段 给 出 了 每 个 指令 
rnp 图 4-30 SEQ 沪 存 阶段 ， 数据 内 存 既 可 以 
写 ， 也 可 以 读 内 存 的 值 。 从 内 存 中 
就 是 : 读 出 的 值 就 形成 了 信号 valM 
word mem_addr = [ 
icode in { IRMMOVQ, IPUSHQ, ICALL, IMRMOVQ } : valE; 


icode in { IPOPQ, IRET } : valA; 
# Other instructions don't need address 






ja 


证 强 练习 题 4.25 观察 图 4-18~- 图 4-21 所 示 的 不 同 指令 的 访 存 操作 ， 我 们 可 以 看 到 内 存 
写 的 数据 总 是 ValA 或 ValP。 写 出 SEQ 中 信号 mem data 的 HCL 代码 。 
我 们 希望 只 为 从 内 存 读数 据 的 指令 设置 控制 信号 mem read， 用 HCL 代码 表示 就 是 : 
bool mem_read = icode in { IMRMOVQ, IPOPQ, IRET }; 


证 弄 练习 题 4.26 我 们 希望 只 为 向 内 存 写 数据 的 指令 设置 控制 信号 mem write。 写 出 
SEQ 中 信号 mem write 的 HCL 代码 。 
访 存 阶段 最 后 的 功能 是 根据 取 值 阶段 产生 的 icode、imem error、 instr Valid 值 
以 及 数据 内 存 产生 的 dmem _ error 信号 ， 从 指令 执行 的 结果 来 计算 状态 码 Stat。 
区 练习 题 4.27 写 出 Stat 的 HCL 代码 ， 产 生 四 个 
状态 码 SAOK、SADR、SINS 和 SHLT( 参 见 图 4-26)。 
5. 更 新 PC 阶段 
SEQ 中 最 后 一 个 阶段 会 产生 程序 计数 器 的 新 值 
( 见 图 4-31)。 如 图 4-18 一 图 4-21 中 最 后 步骤 所 示 ， 
今 个 1 9 3» Pt 
依据 指令 的 类 型 和 是 否 要 选择 分 支 新 闻 可 条 和 
是 valC、valM 或 valP。 用 HCL 来 描述 这 个 选择 和 和 共 支 标志 ， 从 千 曙 -val we 
束 是 : 和 valP 中 选 出 下 一 个 PC 的 值 
word new_pc = [ 
# Call. Use instruction constant 
icode == ICALL : valC; 
# Taken branch. Use instruction constant 


icode == 工 JXX && Cnd : valC; 
# Completion of RET instruction. Use value from stack 





icode Cnd valC valM valP 


282 第 一 部 分 程序 结构 和 执行 


icode == IRET : valM; 
# Default: Use incremented PC 
1 = Valb:; 
有 
6. SEQ 小 结 
现在 我 们 已 经 浏览 了 Y86-64 处 理 天 的 一 个 完整 的 设计 。 可 以 看 到 ， 通 过 将 执行 每 条 
不 同 指令 所 需 的 步骤 组 织 成 一 个 统一 的 流程 ， 就 可 以 用 很 少量 的 各 种 硬件 单元 以 及 一 个 时 
钟 来 控制 计算 的 顺序 ， 从 而 实现 整个 处 理 器 。 不 过 这 样 一 来 ， 控 制 逻 辑 就 必须 要 在 这 些 单 
元 之 间 路 由 信号 ， 并 根据 指令 类 型 和 分 支 条 件 产生 适当 的 控制 信和 号。 
SEQ 唯一 的 问题 就 是 它 太 慢 了 。 时 钟 必须 非常 慢 ， 以 使 信号 能 在 一 个 周期 内 传播 所 
有 的 阶段 。 证 我 们 来 看 看 处 理 一 条 ret 指令 的 例子 。 在 时 钟 周期 起 始 时 ， 从 更 新 过 的 PC 
开始 ， 要 从 指令 内 存 中 读 出 指令 ， 从 寄存 需 文 件 中 读 出 栈 指 针 ，ALU 将 栈 指针 加 8， 为 了 
得 到 程序 计数 希 的 下 一 个 值 ， 还 要 从 内 存 中 谈 出 返回 地 址 。 所 有 这 一 切 都 必须 在 这 个 周期 
结束 之 前 完成 。 
这 种 实现 方法 不 能 充分 利用 硬件 单元 ， 因 为 每 个 单元 只 在 整个 时 钟 周 期 的 一 部 分 时 间 
内 才 被 使 用 。 我 们 会 看 到 引入 流水 线 能 获得 更 好 的 性 能 。 


4. 4 流水 线 的 通用 原理 


在 试图 设计 一 个 流水 线 化 的 Y86-64 处 理 紫 之前， 让 我 们 先 来 看 看 流水 线 化 的 系统 的 
一 些 通用 属性 和 原理 。 对 于 曾经 在 自助 餐厅 的 服务 线 上 工作 过 或 者 开车 通过 自动 汽车 清洗 
线 的 人 ， 都 会 非常 熟悉 这 种 系统 。 在 流水 线 化 的 系统 中 ， 待 执行 的 任务 被 划分 成 了 若干 个 
独立 的 阶段 。 在 目 助 餐厅 ， 这 些 阶段 包括 提供 沙拉 、 主 莱 、 甜 点 以 及 饮料 。 在 汽车 清洗 
中 ， 这 些 阶 段 包括 喷 水 和 打 肥 虹 、 擦 洗 、 上 蜡 和 烘 干 。 通 常 都 会 允许 多 个 顾客 同时 经 过 系 
统 ， 而 不 是 要 等 到 一 个 用 户 完 成 了 所 有 从 头 至 尾 的 过 程 才 让 下 一 个 开始 。 在 一 个 典型 的 自 
助 餐厅 流水 线 上 ， 顾 客 按照 相同 的 顺序 经 过 各 个 阶段 ， 即 使 他 们 并 不 需要 某 些 菜 。 在 汽车 
清洗 的 情况 中 ， 当 前 面 一 辆 汽车 从 喷 水 阶 段 进 入 擦洗 阶段 时 ， 下 一 辆 就 可 以 进入 喷 水 阶段 
了 。 通 稼 ， 汽 车 必须 以 相同 的 速度 通过 这 个 系统 ， 避 免 撞车 。 

流水 线 化 的 一 个 重要 特性 就 是 提高 了 系统 的 吞吐 量 (throughput)， 也 就 是 单位 时 间 内 
服务 的 顾客 总 数 ， 不 过 它 也 会 轻微 地 增加 延迟 (latency) ， 也 就 是 服务 一 个 用 户 所 需要 的 时 
间 。 例 如 ， 目 助 餐厅 里 的 一 个 只 需要 甜点 的 顾客 ， 能 很 快 通过 一 个 非 流水 线 化 的 系统 ， 只 
在 甜点 阶段 停留 。 但 是 在 流水 线 化 的 系统 中 ， 这 个 顾客 如 果 试 图 直接 去 甜点 阶段 就 有 可 能 
招致 其 他 顾客 的 异 仍 了 。 


4.4. 1 计算 流水 线 


让 我 们 把 注意 力 放 到 计算 流水 线 上 来 ， 这 里 的 “顾客 ”就 是 指令 ， 每 个 阶段 完成 指令 
执行 的 一 部 分 。 图 4-32a 给 出 了 一 个 很 简单 的 非 流 水 线 化 的 硬件 系统 例子 。 它 是 由 一 些 执 
行 计算 的 逻辑 以 及 一 个 保存 计算 结果 的 寄存 器 组 成 的 。 时 钟 信号 控制 在 每 个 特定 的 时 间 间 
隔 加 载 寄 存 器 。CD 播放 器 中 的 译 码 器 就 是 这 样 的 一 个 系统 。 输 入 信号 是 从 CD 表面 读 出 
的 位 ， 逻 辑 电 路 对 这 些 位 进行 译 码 ,产生 音频 信号 。 图 中 的 计算 块 是 用 组 合 逻 辑 来 实现 
的 ， 意 味 着 信号 会 穿 过 一 系列 逻辑 门 ， 在 一 定时 间 的 延迟 之 后 ， 输 出 就 成 为 了 输入 的 某 个 
哺 数 。 
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300 ps 20 ps 


延迟 =320 ps 
吞吐 量 =3.12 GIPS 





时 钟 


a) 硬件 : 未 流水 线 化 的 





时 间 





b) 流水 线 图 


图 4-32 非 流 水 线 化 的 计算 硬件 。 每 个 320ps 的 周期 内 ， 系 统 用 
300ps 计算 组 合 逻 辑 函 数 ，20ps 将 结果 存 到 输出 寄存 器 中 


在 现代 逻辑 设计 中 ， 电 路 延迟 以 微微 秒 或 皮 秒 (picosecond， 简 写成 “ps”)， 也 就 是 
10 “ 秒 为 单位 来 计算 。 在 这 个 例子 中 ， 我 们 假设 组 合 逻 辑 需 要 300ps， 而 加 载 寄存 右 需 要 
20ps。 图 4-32 还 给 出 了 一 种 时 序 图 ， 称 为 流水 线 图 (pipeline diagram)。 在 图 中 ， 时 间 从 
左 癌 右 流动 。 从 上 到 下 写 着 一 组 操作 (在 此 称 为 11、I2 和 13)。 实 心 的 长 方形 表示 这 些 指 
令 执 行 的 时 间 。 这 个 实现 中 ， 在 开始 下 一 条 指令 之 前 必须 完成 前 一 个 。 因 此 ， 这 些 方 框 在 
垂直 方向 上 并 没有 相互 重 玲 。 下 面 这 个 公式 给 出 了 运行 这 个 系统 的 最 大 吞吐 量 : 


__ 1 条 指令 。1000ps 、 
春 吐 量 (20 十 300)ps lns® a J 


我 们 以 每 秒 干粮 条 指令 (GIPS)， 也 就 是 每 秒 十 亿 条 指令 ， 为 单位 来 描述 吞吐 量 。 从 
头 到 尾 执行 一 条 指令 所 需要 的 时 间 称 为 延迟 (latency)。 在 此 系统 中 ， 延 迟 为 320ps， 也 就 
是 吞吐 量 的 倒数 。 

假设 将 系统 执行 的 计算 分 成 三 个 阶段 (A、B 和 C)， 每 个 阶段 需要 100ps， 如 图 4-33 所 

100 ps 20ps 100ps 20 ps 100 ps 20 ps 


| 延迟 = 360 ps 
3 吞吐 量 = 8.33 GIPS 








b) 流水 线 图 


图 4-33 三 阶段 流水 线 化 的 计算 硬件 。 计 算 被 划分 为 三 个 阶段 A、B 和 C。 每 经 过 
一 个 120ps 的 周期 ， 每 条 指令 就 行进 通过 一 个 阶段 


昌 lns=107?s, 
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示 。 然 后 在 各 个 阶段 之 间 放 上 流水 线 寄存 器 (pipeline register)， 这 样 每 条 指令 都 会 按照 三 
步 经 过 这 个 系统 .从 头 到 尾 需 要 三 个 完整 的 时 钟 周期 。 如 图 4-33 中 的 流水 线 图 所 示 ， 只 
要 了 1 从 A 进入 B， 就 可 以 让 1I2 进入 阶段 A 了 ， 依 此 类 推 。 在 稳定 状态 下 ， 三 个 阶段 都 应 
该 是 活动 的 ， 每 个 时 钟 周期 ， 一 条 指令 离开 系统 ,一 条 新 的 进入 。 从 流水 线 图 中 第 三 个 时 
钟 周 期 就 能 看 出 这 一 点 ， 此 时 ，11 是 在 阶段 C，I2 在 阶段 B， 而 1I3 是 在 阶段 A。 在 这 个 系 
统 中 ， 我 们 将 时 钟 周 期 设 为 100 十 20 王 120ps， 得 到 的 吞吐 量 大 约 为 8. 33 GIPS。 因 为 处 理 
一 条 指令 需要 3 个 时 钟 周 期 ， 所 以 这 条 流水 线 的 延迟 就 是 3X120=360ps。 我 们 将 系统 在 
吐 量 提高 到 原来 的 8.33/3.12=2.67 倍 ， 代 价 是 增加 了 一 些 硬件 ， 以 及 延迟 的 少量 增加 
(360/320 二 1. 12)。 延 色 变 大 是 由 于 增加 的 流水 线 寄存 右 的 时 间 开 销 。 


4.4.2 流水 线 操作 的 详细 说 明 


为 了 更 好 地 理解 流水 线 是 怎样 工作 的 ， 让 我 们 来 详细 看 看 流水 线 计 算 的 时 序 和 操作 。 
图 434 给 出 了 前 面 我 们 看 到 过 的 三 阶段 流水 线 (图 433) 有 时钟 ”站 门 站 四季 
的 流水 线 图 。 就 像 流水 线 图 上 方 指明 的 那样 ， 流 水 线 阶 Ti 
段 之 间 的 指令 转移 是 由 时 钟 信 号 来 控制 的 。 每 隔 120ps， 了 A 





信号 从 0 上 升 至 1， 开始 下 一 组 流水 线 阶段 的 计算 。 3 A 
图 4-35 跟踪 了 时 刻 240 一 360 之 间 的 电路 活动 ， 0 120 240 360 480 600 

指令 也 经 过 阶段 C，I2 经 过 阶段 B， 而 13 经 过 阶段 时 间 

A。 就 在 时 刻 240( 点 1) 时 钟 上 升 之 前 ， 阶 段 A 中 计算 图 434 三 阶段 流水 线 的 时 序 。 时钟 

的 指令 I2 的 值 已 经 到 达 第 一 个 流水 线 寄存 器 的 输入 ， 信号 的 上 升 沿 控制 指令 从 一 

但 是 该 寄存 器 的 状态 和 输出 还 保持 为 指令 1 在 阶段 A 个 流水 线 阶段 移动 到 下 一 个 


中 计算 的 值 。 指 令 I 在 阶段 BB 中 计算 的 值 已 经 到 达 第 人 


二 个 流水 线 寄 存 需 的 输入 。 当 时 钟 上 升 时 ， 这 些 输入 被 加 载 到 流水 线 寄 存 需 中 ， 成 为 寄 
存 器 的 输出 (点 2) 。 另 外 ， 阶 段 A 的 输入 被 设置 成 发 起 指令 13 的 计算 。 然 后 信号 传播 
通过 各 个 阶段 的 组 合 逻 辑 ( 点 3)。 就 像 图 中 点 3 处 的 曲线 化 的 波 阵 面 (curved wavefront) 
表明 的 那样 ， 信 号 可 能 以 不 同 的 速率 通过 各 个 不 同 的 部 分 。 在 时 刻 360 之 前 ， 结 果 值 到 
达 流 水 线 寄存 器 的 输入 (点 4) 。 当 时 刻 360 时 钟 上 升 时 ， 各 条 指令 会 前 进 经 过 一 个 流水 
线 阶 段 。 

从 这 个 对 流水 线 操作 详细 的 描述 中 ， 我 们 可 以 看 到 减缓 时 钟 不 会 影响 流水 线 的 行为 。 
信号 传播 到 流水 线 寄存 器 的 输入 ， 但 是 直到 时 钟 上 升 时 才 会 改变 寄存 器 的 状态 。 男 一 方 
面 ， 如 果 时 钟 运行 得 太 快 ， 就 会 有 灾难 性 的 后 果 。 值 可 能 会 来 不 及 通过 组 合 逻 辑 ， 因 此 妆 
时 钟 上 逢 时， 寄存 需 的 输入 还 不 是 合法 的 值 。 

根据 对 SEQ 处 理 器 时 序 的 讨论 (4. 3. 3 节 ) ， 我 们 看 到 这 种 在 组 合 逻辑 块 之 间 采 用 时 钟 
寄存 器 的 简单 机 制 ， 足 够 控制 流水 线 中 的 指令 流 。 随 着 时 钟 周 而 复 始 地 上 升 和 下 降 ， 不 同 
的 指令 就 会 通过 流水 线 的 各 个 阶段 ， 不 会 相互 干扰 。 


4.4.3 流水 线 的 局 限 性 


图 4-33 的 例子 给 出 了 一 个 理想 的 流水 线 化 的 系统 ,在 这 个 系统 中 ， 我 们 可 以 将 计算 
分 成 三 个 相互 独立 的 阶段 ， 每 个 阶段 需要 的 时 间 是 原来 逻辑 需要 时 间 的 三 分 之 一 。 不 第 的 
是 ， 会 出 现 其 他 一 些 因素 ， 降 低 流水 线 的 效率 。 
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时 间 120 pA t /360 
中 ©@@@ 
个 时 间 = 239 


100 ps 20 ps 100 ps 20 ps 100 ps 20 ps 










@ 时 间 = 241 时 钟 


100 ps 20 ps 100 ps 20 ps 100 ps 20 ps 





@ 时 间 = 300 时 钟 
100 ps 20 ps 20 ps 


@ 时 间 = 359 
100 ps 20 ps 


图 4-35 流水 线 操作 的 一 个 时 钟 周期 。 在 时 刻 240( 点 1) 时 钟 上 升 之 前 ， 指 令 卫 和 及 已 经 完成 了 阶段 
B 和 A。 在 时 钟 上 升 后 ， 这 些 指令 开始 传送 到 阶段 C 和 B， 而 指令 13 开始 经 过 阶段 A( 点 2 

和 3)。 就 在 时 钟 开始 再 次 上 升 之 前 ， 这 些 指令 的 结果 就 会 传 到 流水 线 寄存 器 的 输入 (点 4) 

1. 不 一 致 的 划分 

图 4-36 展示 的 系统 中 和 前 面 一 样 ， 我 们 将 计算 划分 为 了 三 个 阶段 ， 但 是 通过 这 些 阶 
段 的 延迟 从 50ps 到 150ps 不 等 。 通 过 所 有 阶段 的 延迟 和 仍然 为 300ps。 不过， 运行 时 钟 的 
速率 是 由 最 慢 的 阶段 的 延迟 限制 的 。 流 水 线 图 表明 ， 每 个 时 钟 周 期 ， 阶 段 A 都 会 空闲 (用 
白色 方 框 表 示 )100ps， 而 阶段 C 会 空闲 50ps。 只 有 阶段 B 会 一 直 处 于 活动 状态 。 我 们 必 
须 将 时 钟 周期 设 为 150 十 20= 二 170ps， 得 到 吞吐 量 为 5.88 GIPS。 另 外 ， 由 于 时 钟 周 期 减 慢 
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了 ， 延 人 运 也 增加 到 了 510ps。 








50 ps 20ps 150 ps 20 ps 100 ps 20 ps 
510 ps 
= 5.88 GIPS 
时 钟 
b ) 流水 线 图 
图 4-36 由 不 一 致 的 阶段 延迟 造成 的 流水 线 技术 的 局 限 性 。 系 统 的 吞吐 量 受 最 慢 阶 段 的 速度 所 限制 


对 硬件 设计 者 来 说 ， 将 系统 计算 设计 划分 成 一 组 具有 相同 延迟 的 阶段 是 一 个 严峻 的 挑战 。 
通常 ， 处 理 需 中 的 某 些 硬件 单元 ， 如 ALU 和 内 存 ， 是 不 能 被 划分 成 多 个 延迟 较 小 的 单元 的 。 
这 就 使 得 创建 一 组 平衡 的 阶段 非常 困难 。 在 设计 流水 线 化 的 Y86-64 处 理 器 中 ， 我 们 不 会 过 于 关 
注 这 一 层次 的 细节 ， 但 是 理解 时 序 优化 在 实际 系统 设计 中 的 重要 性 还 是 非常 重要 的 。 

计 吏 练习 题 4.28 假设 我 们 分 析 图 4-32 中 的 组 合 逻辑 ， 认 为 它 可 以 分 成 6 个 块 ， 依 次 命 

名 为 A~ 一 F， 延 迟 分 别 为 80、30、60、50、70 和 10ps， 如 下 图 所 示 : 

80 ps 30 ps 60 ps 50 pS 70 ps 10ps 20 ps 





时 钟 


在 这 些 块 之 间 插 入 流水 线 寄存 器 ， 就 得 到 这 一 设计 的 流水 线 化 的 版 本 。 根 据 在 哪 
里 插入 流水 线 寄存 顺 ， 会 出 现 不 同 的 流水 线 深度 (有 多 少 个 阶段 ) 和 最 大 吞吐 量 的 组 
合 。 假 设 每 个 流水 线 寄 存 器 的 延迟 为 20ps。 
A. 只 插入 一 个 寄存 器 ， 得 到 一 个 两 阶段 的 流水 线 。 要 使 吞吐 量 最 大 化 ， 该 在 哪里 插 
入 寄存 器 呢 ? 吞吐 量 和 延迟 是 多 少 ? 
B. 要 使 一 个 三 阶段 的 流水 线 的 吞吐 量 最 大 化 ， 该 将 两 个 寄存 器 插 在 哪里 呢 ? 吞吐 量 
和 延迟 是 多 少 ? 
C. 要 使 一 个 四 阶段 的 流水 线 的 吞吐 量 最 大 化 ， 该 将 三 个 寄存 器 插 在 哪里 呢 ? 吞吐 量 
和 延迟 是 多 少 ? 
D. 要 得 到 一 个 吞吐 量 最 大 的 设计 ， 至 少 要 有 几 个 阶段 ? 描述 这 个 设计 及 其 吞吐 量 和 延 退 。 
2. 流水 线 过 深 ， 收 益 反而 下 降 
图 4-37 说 明了 流水 线 技术 的 另 一 个 局 限 性 。 在 这 个 例子 中 ， 我 们 把 计算 分 成 了 6 个 
阶段 ， 每 个 阶段 需要 50ps。 在 每 对 阶段 之 间 插 入 流水 线 寄存 器 就 得 到 了 一 个 六 阶段 流水 
线 。 这 个 系统 的 最 小 时 钟 周期 为 50 十 20= 二 70ps， 和 吞吐 量 为 14. 29 GIPS。 因 此 ,通过 将 流 
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水 线 的 阶段 数 加 倍 ， 我 们 将 性 能 提高 了 14. 29/8. 33 王 1.71。 虽 然 我 们 将 每 个 计算 时 钟 的 时 
间 缩 得 了 两 倍 ， 但 是 由 于 通过 流水 线 寄 存 器 的 延迟 ， 香 吐 量 并 没有 加 倍 。 这 个 延迟 成 了 流 
水 线 吞 吐 量 的 一 个 制约 因素 。 在 我 们 的 新 设计 中 ， 这 个 延迟 占 到 了 整个 时 钟 周 期 
的 28. 6%。 


50ps 20ps 50ps 20ps 50ps 20 Tr 50 ps 20 间 50 ps 20ps 50 ps 


-> | 组 合 | hr 网 组 合 ie ; ti 
1 i 逻辑 | 间 逻辑 | “区 


时 钟 延迟 = 420 ps, 吞吐 量 = 14.29 GIPS 


图 4-37 由 开销 造成 的 流水 线 技术 的 局 限 性 。 在 组 合 逻 辑 被 分 成 较 小 的 块 时 ， 
由 寄存 器 更 新 引起 的 延迟 就 成 为 了 一 个 限制 因素 


为 了 提高 时 钟 频 率 ， 现 代 处 理 器 采用 了 很 深 的 (15 或 更 多 的 阶段 ) 流 水 线 。 处 理 器 架构 师 
将 指令 的 执行 划分 成 很 多 非 篆 简单 的 步 又， 这 样 一 来 每 个 阶段 的 延 妈 就 很 小 。 电 路 设计 者 小 
心地 设计 流水 线 寄存 器 ， 使 其 延迟 尽 可 能 得 小 。 芯 片 设 计 者 也 必须 小 心地 设计 时 钟 传播 网 
络 ， 以 保证 时 钟 在 整个 芯片 上 同时 改变 。 所 有 这 些 都 是 设计 高 速 微 处 理 占 面临 的 挑战 。 
放电 练习 题 4.29 让 我 们 来 看 看 图 4-32 中 的 系统 ， 假 设 将 它 划 分 成 任意 数量 的 流水 线 阶 

&A， 每 个 阶段 有 相同 的 延迟 300/&， 每 个 流水 线 寄存 器 的 延迟 为 20ps。 
A. 系统 的 延 训 和 和 奉 吐 量 写成 生 的 函数 是 什么 ? 
B. 吞吐 量 的 上 限 等 于 多 少 ? 


4.4.4 市 反馈 的 流水 线 系统 


到 目前 为 止 ， 我 们 只 考虑 一 种 系统 ， 其 中 传 过 流水 线 的 对 象 ， 无 论 是 汽车 、 人 或 者 指 
令 ， 相 互 都 是 完全 独立 的 。 但 是 ， 对 于 像 x86-64 或 Y86-64 这 样 执行 机 器 程序 的 系统 来 
说 ， 相 邻 指令 之 间 很 可 能 是 相关 的 。 例 如 ， 考 虑 下 面 这 个 Y86-64 指令 序列 : 


1 irmovVq $50, (Gra 
sq Co 
Cab ), hrax 


DD 
OO 
DD 





EE EE 





3 mrmovq 100( 


在 这 个 包含 三 条 指令 的 序列 中 ， 每 对 相 邻 的 指令 之 间 都 有 数据 相关 (data dependen- 
cy)， 用 带 圈 的 寄存 器 名 字 和 它们 之 间 的 箭头 来 表示 。irmovq 指令 (第 1 行 ) 将 它 的 结果 存 
放 在 srax 中 ， 然 后 addq 指令 (第 2 行 ) 要 读 这 个 值 ; 而 addq 指令 将 它 的 结果 存放 在 srbx 
中 ，mrmovq 指令 (第 3 行 ) 要 读 这 个 值 。 

另 一 种 相关 是 由 于 指令 控制 流 造成 的 顺序 相关 。 来 看 看 下 面 这 个 Y86-64 指令 序列 : 

] loop: 

2 subq %rdx,%rbx 
3 jne targ 

4 irmovg $10,%rdx 
5 jmp loop 

6 targ: 

7 halt 
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jne 指令 (第 3 行 ) 产 生 了 一 个 控制 相关 (control dependency)， 因 为 条 件 测试 的 结果 会 
决定 要 执行 的 新 指令 是 irmovq 指令 (第 4 行 ) 还 是 halt 指令 (第 7 行 )。 在 我 们 的 SEQ 设 
计 中 ， 这些 相关 都 是 由 反馈 路 径 来 解决 的 ， 如 图 4-22 的 右边 所 示 。 这 些 反 馈 将 更 新 了 的 
寄存 器 值 向 下 传送 到 寄存 器 文件 ， 将 新 的 PC 值 向 下 传送 到 PC 寄存 闫 。 

图 4-38 举例 说 明了 将 流水 线 引 入 含有 反馈 路 径 的 系统 中 的 危险 。 在 原来 的 系统 (图 4-38a) 
中 ， 每 条 指令 的 结果 都 反馈 给 下 一 条 指令 。 流 水 线 图 (图 438b) 就 说 明了 这 个 情况 ， 的 结果 成 
为 2 的 输入 ， 依 此 类 推 。 如 果 试 图 以 最 和 直接 的 方式 将 它 转换 成 一 个 三 阶段 流水 线 ( 图 和 438c)， 
我 们 将 改变 系统 的 行为 。 如 图 4-38c 所 示 ，11 的 结果 成 为 4 的 输入 。 为 了 通过 流水 线 技术 加 速 
系统 ， 我 们 改变 了 系统 的 行为 。 





时 间 ] 








b) 流水 线 图 





时 间 
寺 钟 
c) 硬件 : 带 反馈 的 三 阶段 流水 线 让 d) 流水 线 图 


图 4-38 ”由 逻辑 相关 造成 的 流水 线 技术 的 局 限 性 。 在 从 未 流水 线 化 的 带 反 馈 的 系统 a 转化 到 流水 线 化 
的 系统 c 的 过 程 中 ,我 们 改变 了 它 的 计算 行为 ， 可 以 从 两 个 流水 线 图 (b 和 d) 中 看 出 来 


当 我 们 将 流水 线 技 术 引 入 Y86-64 处 理 器 时 ， 必 须 正 确 处 理 反 馈 的 影响 。 很 明显 ， 像 
图 4-38 中 的 例子 那样 改变 系统 的 行为 是 不 可 接收 的 。 我 们 必须 以 某 种 方式 来 处 理 指令 间 
的 数据 和 控制 相关 ， 以 使 得 到 的 行为 与 ISA 定义 的 模型 相符 。 


4.5 Y86-64 的 流水 线 实现 


我 们 终于 准备 好 要 开始 本 章 的 主要 任务 一 一 设计 一 个 流水 线 化 的 Y86-64 处 理 器 。 首 
先 ， 对 顺序 的 SEQ 处 理 融 做 一 点 小 的 改动 ， 将 PC 的 计算 挪 到 取 指 阶段 。 然 后 ， 在 各 个 阶 
段 之 间 加 上 流水 线 寄存 副 。 到 这 个 时 候 ， 我 们 的 尝试 还 不 能 正确 处 理 各 种 数据 和 控制 相 
关 。 不 过 ， 做 一 些 修改 ,就 能 实现 我 们 的 目标 一 一 一 个 高 效 的 、 流 水 线 化 的 实现 Y86-64 
ISA 的 处 理 套 。 





4.5.1 SEQ+: 重新 安排 计算 阶段 

作为 实现 流水 线 化 设计 的 一 个 过 渡 步 又， 我 们 必须 稍微 调整 一 下 SEQ 中 五 个 阶段 的 
顺序 ， 使 得 更 新 PC 阶段 在 一 个 时 钟 周期 开始 时 执行 ， 而 不 是 结束 时 才 执 行 。 只 需要 对 整 
体 硬 件 结构 做 最 小 的 改动 ， 对 于 流水 线 阶 段 中 的 活动 的 时 序 ， 它 能 工作 得 更 好 。 我 们 称 这 
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种 修改 过 的 设计 为 “SEQ 十 ”。 

我 们 移动 PC 阶段 ， 使 得 它 的 逻辑 在 时 钟 周期 开始 时 活动 ， 使 它 计算 当 前 指令 的 PC 
值 。 图 4-39 给 出 了 SEQ 和 SEQ 十 在 PC 计算 上 的 不 同 之 处 。 在 SEQ 中 (图 4-39a) ，PC 计 
算 发 生 在 时 钟 周期 结束 的 时 候 ， 根 据 当 前 时 钟 周期 内 计算 出 的 信号 值 来 计算 PC 寄存 规 的 
新 值 。 在 SEQ 十 中 (图 4-39b) ， 我 们 创建 状态 寄存 器 来 保存 在 一 条 指令 执行 过 程 中 计算 出 
来 的 信号 。 然 后， 当 一 个 新 的 时 钟 周 期 开始 时 ， 这 些 信 号 值 通过 同样 的 人 逻辑 来 计算 当前 指 
令 的 PC。 我们 将 这 些 寄 人 存 需 标号 为 “pIcode”、“pCnd” 等 等 ， 来 指明 在 任 一 给 定 的 周期 ， 
它们 保存 的 是 前 一 个 周期 中 产生 的 控制 信号 。 





人 
en 
eal | 





icode cnd valC valM valP 
a) SEQ 的 新 PC 计算 b) SEQ+ 的 PC 选择 
图 4-39 移动 计算 PC 的 时 间 。 在 SEQ 十 中 ， 我 们 将 计算 当前 状态 的 
程序 计数 器 的 值 作为 指令 执行 的 第 一 步 
图 4-40 给 出 了 SEQ 十 硬件 的 一 个 更 为 详细 的 说 明 。 可 以 看 到 ， 其 中 的 硬件 单元 和 控 
制 块 与 我 们 在 SEQ 中 用 到 的 (图 4-23) 一 样 ， 只 不 过 PC 人 逻辑 从 上 面 ( 在 时 钟 周期 结束 时 活 
动 ) 移 到 了 下 面 (在 时 钟 周 期 开始 时 活动 )。 


臣下 SEQ+ 中 的 PC 在 哪里 

SEQ 十 有 一 个 很 奇怪 的 特色 ， 那 就 是 没有 硬件 寄存 器 来 存放 程序 计数 器 。 而 是 根 
据 从 前 一 条 指令 保存 下 来 的 一 些 状 态 信 息 动 态 地 计算 PC。 这 就 是 一 个 小 小 的 证 
明 我 们 可 以 以 一 种 与 ISA 隐 仿 着 的 概念 模型 不 同 的 方式 来 实现 处 理 器 ， 只 要 处 理 
器 能 正确 执行 任意 的 机 器 语言 程序 。 我 们 不 需要 将 状态 编码 成 程序 员 可 见 的 状态 指定 
的 形式 ， 只 要 处 理 器 能 够 为 任意 的 程序 员 可 见 状态 (例如 程序 计数 器 ) 产 生 正 确 的 值 。 
在 创建 流水 线 化 的 设计 中 ， 我 们 会 更 多 地 使 用 到 这 条 原则 。5.7 节 中 描述 的 乱 序 (out- 
of-order) 处 理 技 术 ， 以 一 种 完全 不 同 于 机 器 级 程序 中 出 现 的 顺序 的 次 序 来 执行 指令 ， 
将 这 一 思想 发 挥 到 了 极致 。 


SEQ 到 SEQ 十 中 对 状态 单元 的 改变 是 一 种 很 通用 的 改进 的 例子 ， 这 种 改进 称 为 电路 
重 定时 (circuit retiming)L68j。 重 定时 改变 了 一 个 系统 的 状态 表示 ， 但 是 并 不 改变 它 的 逻 
辑 行为 。 通 常用 它 来 平衡 一 个 流水 线 系 统 中 各 个 阶段 之 间 的 延迟 。 


4.5.2 插入 流水 线 寄存 器 


在 创建 一 个 流水 线 化 的 Y86-64 处 理 需 的 最 初 尝试 中 ， 我 们 要 在 SEQ 十 的 各 个 阶段 之 
间 插 和 人 流水线 寄存 器 ， 并 对 信号 重新 排列 ， 得 到 PIPE 一 处 理 器 ， 这 里 的 “一 ”代表 这 个 
处 理 器 和 最 终 的 处 理 器 设计 相 比 ， 性 能 要 差 一 点 。PIPE 一 的 抽象 结构 如 图 4-41 所 示 。 流 
水 线 寄存 兢 在 该 图 中 用 黑色 方 框 表示 ， 每 个 寄存 器 包括 不 同 的 字段 ， 用 白色 方 框 表示 。 正 
如 多 个 字段 表明 的 那样 ， 每 个 流水 线 寄 存 器 可 以 存放 多 个 字 节 和 字 。 同 两 个 顺序 处 理 器 的 
硬件 结构 (图 4-23 和 图 4-40) 中 的 圆 角 方 框 不 同 ， 这 些 白色 的 方 框 表示 实际 的 硬件 组 成 。 
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图 4-40 ”SEQ 十 的 硬件 结构 。 将 PC 计算 从 时 钟 周 期 结束 时 移 到 了 开始 时 ， 使 之 更 适合 于 流水 线 


可 以 看 到 ，PIPE 一 使 用 了 与 顺序 设计 SEQ( 图 4-40) 几 乎 一 样 的 硬件 单元 ， 但 是 有 流 
水 线 寄存 髓 分 隔 开 这 些 阶段 。 两 个 系统 中 信号 的 不 同 之 处 在 4. 5.3 市 中 讨论 ，。 

流水 线 寄存 需 按 如 下 方式 标号 : 

F 保存 程序 计数 希 的 预测 值 ， 稍 后 讨论 。 

D 位 于 取 指 和 译 码 阶段 之 间 。 它 保存 关于 最 新 取出 的 指令 的 信息 ， 即 将 由 译 码 阶段 
进行 处 理 。 

E 位 于 译 码 和 执行 阶段 之 间 。 它 保存 关于 最 新 译 码 的 指令 和 从 寄存 事 文 件 读 出 的 值 
的 信息 ， 即 将 由 执行 阶段 进行 处 理 。 
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M 位 于 执行 和 访 存 阶段 之 间 。 它 保存 最 新 执行 的 指令 的 结果 ， 即 将 由 访 存 阶段 进行 
处 理 。 它 还 保存 关于 用 于 处 理 条 件 转 移 的 分 文 条 件 和 分 文 目 标的 信息 。 

W 位 于 访 存 阶段 和 反馈 路 径 之 间 ， 反 馈 路 径 将 计算 出 来 的 值 提 供给 寄存 器 文件 写 ， 
而 当 完 成 ret 指令 时 ， 它 还 要 加 PC 选择 逻辑 提供 返回 地 址 。 
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图 4-41 PIPE 一 的 硬件 结构 ， 一 个 初始 的 流水 线 化 实现 。 通 过 往 SEQ 十 (图 4-40) 中 插入 流水 线 寄存 
人 希 ， 我 们 创建 了 一 个 五 阶段 的 流水 线 。 这 个 版 本 有 几 个 缺陷 ， 稍 后 就 会 解决 这 些 问题 


图 4-42 表明 以 下 代码 序列 如 何 通过 我 们 的 五 阶段 流水 线 ， 其 中 注释 将 各 条 指令 标识 
为 了 ~I5 以 便 引 用 : 


1 irmovq $1,%hrax # I1 
2 irmovd $2,%hrbx # I2 
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3 irmovg $3,hrcx # I3 
4 irmovgq $4,%rdx # I4 
入 halt # I5 


irmovg 
ITrmoVd 


irmovg 


irmovg 


halt 





图 4-42 指令 流通 过 流水 线 的 示例 


图 中 右边 给 出 了 这 个 指令 序列 的 流水 线 图 。 同 4.4 市 中 简单 流水 线 化 的 计算 单元 的 流 
水 线 图 一 样 ， 这 个 图 描述 了 每 条 指令 通过 流水 线 各 个 阶段 的 行进 过 程 ， 时间 从 左 往 右 增 
大 。 上 面 一 条 数字 表明 各 个 阶段 发 生 的 时 钟 周期 。 例 如 ， 在 周期 1 取出 指令 1 ， 然 后 它 开 
台 通过 流水 线 各 个 阶段 ， 到 周期 5 结束 后 ， 其 结果 写 人 寄存 吉文 件 。 在 周期 2 取出 指令 
I2， 到 周期 6 结束 后 ， 其 结果 写 回 ， 以 此 类 推 。 在 最 下 面 ， 我 们 给 出 了 当 周 期 为 5 时 的 流 
水 线 的 扩展 图 。 此 时 ， 每 个 流水 线 阶段 中 各 有 一 条 指令 。 

从 图 4-42 中 还 可 以 判断 我 们 画 处 理 需 的 习惯 是 合理 的 ， 这 样 ， 指 令 是 目 底 回 上 的 流 
动 的 。 周 期 5 时 的 扩展 图 表明 的 流水 线 阶 段 ， 取 指 阶 段 在 底部 ， 写 回 阶段 在 最 上 面 ， 同 流 
水 线 硬件 图 (图 4-41) 表 明 的 一 样 。 如 果 看 看 流水 线 各 个 阶段 中 指令 的 顺序 ， 就 会 发 现 它们 
出 现 的 顺序 与 在 程序 中 列 出 的 顺序 一 样 。 因 为 正常 的 程序 是 从 上 到 下 列 出 的 ， 我 们 保留 这 
种 顺序 ， 让 流水 线 从 下 到 上 进行 。 在 使 用 本 书 附带 的 模拟 占 时 ， 这 个 习惯 会 特别 有 用 。 


4. 5.3 对 信号 进行 重新 排列 和 标号 


顺序 实现 SEQ 和 SEQ 十 在 一 个 时 刻 只 处 理 一 条 指令 ， 因 此 诸如 valC、srca 和 valE 
这 样 的 信号 值 有 唯一 的 值 。 在 流水 线 化 的 设计 中 ， 与 各 个 指令 相关 联 的 这 些 值 有 多 个 版 
本 ， 会 随 着 指令 一 起 流 过 系统 。 例 如 ， 在 PIPE 一 的 详细 结构 中 ， 有 4 个 标号 为 “Stat” 的 
白色 方 框 ， 保 存 着 4 条 不 同 指令 的 状态 码 ( 参 见 图 4-41)。 我 们 需要 很 小 心 以 确保 使 用 的 是 
正确 版 本 的 信号 ， 否 则 会 有 很 严重 的 错误 ， 例 如 将 一 条 指令 计算 出 的 结果 存放 到 了 为 一 条 
指令 指定 的 目的 寄存 器 。 我 们 采用 的 命名 机 制 ， 通 过 在 信号 名 前 面 加 上 大 写 的 流水 线 寄存 
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名 名 字 作 为 前 级 ， 和 存储 在 流水 线 寄存 右 中 的 信号 可 以 唯一 地 被 标识 。 例 如 ，4 个 状态 码 可 
以 被 依 名 为 D stat、E stat、M stat 和 W stat。 我 们 还 需要 引用 某 些 在 一 个 阶段 内 刚 
刚 计 算出 来 的 信号 。 它 们 的 命名 是 在 信号 名 前 面 加 上 小 写 的 阶段 名 的 第 一 个 字母 作为 前 
级 。 以 状态 码 为 例 ， 可 以 看 到 在 取 指 和 访 存 阶段 中 标号 为 “Stat” 的 控制 逻辑 块 。 因 而 ， 
这 些 块 的 输出 被 命名 为 £ stat 和 m stat。 我 们 还 可 以 看 到 整个 处 理 器 的 实际 状态 Stat 
是 根据 流水 线 寄存 项 W 中 的 状态 值 ， 由 写 回 阶段 中 的 块 计算 出 来 的 。 


旁 注 | 信号 M_ stat 和 m _ stat 的 差别 

在 命名 系统 中 ， 大 写 的 前 缓 “D”、“E” “M” 和 “W” 指 的 是 流水 线 寄 存 器 ， 所 
以 M _ stat 指 的 是 流水 线 和 寄存 器 M 的 状态 码 字 段 。 小 写 的 前 级 “ff”、“d”、“e”、“m” 
和 “w” 指 的 是 流水 线 阶段 ， 所 以 m _stat 指 的 是 在 访 存 阶 段 中 由 控制 逻辑 块 产生 出 的 
状态 信号 。 

理解 这 个 命名 规则 对 理解 我 们 的 流水 线 化 处 理 器 的 操作 是 至 关 重 要 的 。 


SEQ 十 和 了 PIPE 一 的 译 码 阶段 都 产生 信号 dstE 和 dstM， 它 们 指明 值 valE 和 valM 的 目的 
寄存 器 。 在 SEQ 十 中 ， 我 们 可 以 将 这 些 信号 直接 连 到 寄存 峰 文 件 写 端口 的 地 址 输入 。 在 
PIPE 一 中 ， 会 在 流水 线 中 一 直 携 带 这 些 信 号 穿 过 执行 和 访 存 阶 段 ， 直 到 写 回 阶段 才 送 到 寄存 
作文 件 ( 如 各 个 阶段 的 详细 摘 述 所 示 )。 我 们 这 样 做 是 为 了 确保 写 端口 的 地 址 和 数据 输入 是 来 
自 同一 条 指令 。 否 则 ， 会 将 处 于 写 回 阶段 的 指令 的 值 写 入 ， 而 寄存 更 ID 却 来 自 于 处 于 译 码 
阶段 的 指令 。 作 为 一 条 通用 原则 ， 我 们 要 保存 处 于 一 个 流水 线 阶段 中 的 指令 的 所 有 信息 。 

PIPE 一 中 有 一 个 块 在 相同 表示 形式 的 SEQ 十 中 是 没有 的 ， 那 就 是 译 码 阶段 中 标号 为 
“Select A” 的 块 。 我 们 可 以 看 出 ， 这 个 块 会 从 来 自流 水 线 寄存 器 D 的 valP 或 从 寄存 器 文件 
A 疹 口 中 读 出 的 值 中 选择 一 个 ， 作 为 流水 线 寄存 器 王 的 值 valRA。 包 括 这 个 块 是 为 了 减少 要 
携 市 给 流水 线 寄存 器 正和 M 的 状态 数量 。 在 所 有 的 指令 中 ， 只 有 call 在 访 存 阶段 需要 valP 
的 值 。 只 有 跳 转 指令 在 执行 阶段 ( 当 不 需要 进行 跳 转 时 ) 需 要 valP 的 值 。 而 这 些 指 令 又 都 不 
需要 从 寄存 器 文件 中 读 出 的 值 。 因 此 我 们 合并 这 两 个 信号 ， 将 它们 作为 信号 vala 携带 穿 过 
流水 线 ， 从 而 可 以 减少 流水 线 寄存 器 的 状态 数量 。 这 样 做 就 消除 了 SEQ( 图 4-23) 和 SEQ 十 
(图 4-40) 中 标号 为 “Data” 的 块 ， 这 个 块 完成 的 是 类 似 的 功能 。 在 硬件 设计 中 ， 像 这 样 仔细 
确认 信号 是 如 何 使 用 的 ， 然 后 通过 合并 信和 号 来 减少 寄存 器 状态 和 线路 的 数量 ， 是 很 各 见 的 。 

如 图 4-41 所 示 ， 我 们 的 流水 线 寄存 毅 包 括 一 个 状态 码 stat 字段 ， 开 始 时 是 在 取 指 阶 
段 计 算出 来 的 ， 在 访 存 阶段 有 可 能 会 被 修改 。 在 讲 完 正常 指令 执行 的 实现 之 后 ， 我 们 会 在 
4. 5. 6 节 中 讨论 如 何 实现 异 常事 件 的 处 理 。 到 目前 为 止 我 们 可 以 说 ， 最 系统 的 方法 就 是 让 
与 每 条 指令 关联 的 状态 码 与 指令 一 起 通过 流水 线 ， 就 像 图 中 表明 的 那样 。 


4.5.4 预测 下 一 个 PC 


在 PIPE 一 设计 中 ， 我们 采取 了 一 些 措施 来 正确 处 理 控 制 相关 。 流 水 线 化 设计 的 目的 就 
是 每 个 时 钟 周期 都 发 射 一 条 新 指令 ， 也 就 是 说 每 个 时 钟 周 期 都 有 一 条 新 指令 进入 执行 阶段 并 
最 终 完成 。 要 是 达到 这 个 目的 也 就 意味 着 吞吐 量 是 每 个 时 钟 周 期 一 条 指令 。 要 做 到 这 一 点 ， 
我 们 必须 在 取出 当前 指令 之 后 ， 马 上 确定 下 一 条 指令 的 位 置 。 不 幸 的 是 ， 如 果 取 出 的 指令 是 
条 件 分 支 指令 ， 要 到 几 个 周期 后 ， 也 就 是 指令 通过 执行 阶段 之 后 ， 我 们 才能 知道 是 否 要 选择 
分 文 。 类 似 地 ， 如 果 取 出 的 指令 是 ret， 要 到 指令 通过 访 存 阶段 ， 才 能 确定 返回 地 址 。 

除了 条 件 转移 指令 和 ret 以 外 ， 根 据 取 指 阶段 中 计算 出 的 信息 ， 我 们 能 够 确定 下 一 条 


294 第 一 部 分 程序 结构 和 执行 


指令 的 地 址 。 对 于 call 和 jmp( 无 条 件 转移 ) 来 说 ， 下 一 条 指令 的 地 址 是 指令 中 的 常数 字 
valC， 而 对 于 其 他 指令 来 说 就 是 valP。 因 此 ， 通 过 预测 PC 的 下 一 个 值 ， 在 大 多 数 情 况 
下 ， 我 们 能 达到 每 个 时 钟 周 期 发 射 一 条 新 指令 的 目的 。 对 大 多 数 指 令 类 型 来 说 ， 我 们 的 预 
测 是 完全 可 徘 的 。 对 条 件 转 移 来 说 ， 我们 既 可 以 预测 选择 了 分 支 ， 那 么 新 PC 值 应 为 
valC， 也 可 以 预测 没有 选择 分 文 ， 那 么 新 PC 值 应 为 valP。 无 论 哪 种 情况 ,我 们 都 必须 
以 某 种 方式 来 处 理 预 测 错误 的 情况 ， 因 为 此 时 已 经 取出 并 部 分 执行 了 错误 的 指令 。 我 们 会 
在 4. 5. 8 节 中 再 讨论 这 个 问题 。 

猜测 分 支 方向 并 根据 猜测 开始 取 指 的 技术 称 为 分 支 预测 。 实 际 上 所 有 的 处 理 器 都 采用 
了 某 种 形式 的 此 类 技术 。 对 于 预测 是 否 选 择 分 支 的 有 效 策 略 已 经 进行 了 广泛 的 研究 L46， 
2.3 节 ]。 有 的 系统 花费 了 大 量 硬件 来 解决 这 个 任务 。 我 们 的 设计 只 使 用 了 简单 的 策略 ， 
即 总 是 预测 选择 了 条 件 分 支 ， 因 而 预测 PC 的 新 值 为 valc。 


臣下 其 他 的 分 支 预测 策略 


我 们 的 设计 使 用 总 是 选择 (always taken) 分 支 的 预测 策略 。 研 究 表明 这 个 策略 的 成 
功率 大 约 为 60%%[L44，122]j。 相 反 ， 从 不 选择 (never taken，NT) 策 略 的 成 功率 大 约 为 
40%。 稍 微 复 杂 一 点 的 是 反 向 选择 、 正 向 不 选择 (backward taken，forward not-taken， 
BTFNT) 的 策略 ， 当 分 支 地 址 比 下 一 条 地 址 低 时 就 预测 选择 分 支 ， 而 分 支 地 址 比较 高 
时 ， 就 预测 不 选择 分 支 。 这 种 策略 的 成 功率 大 约 为 65%。 这 种 改进 源 自 一 个 事实 ， 即 循 
环 是 由 后 向 分 支 结束 的 ， 而 循环 通常 会 执行 多 次 。 前 向 分 支 用 于 条 件 操 作 ， 而 这 种 选择 
的 可 能 性 较 小 。 在 家 庭 作 业 4.55 和 4.56 中 ， 你 可 以 修改 Y86-64 流水 线 处 理 器 来 实现 
NT 和 BTEFNTI 分 支 预测 策略 。 

正如 我 们 在 3. 6.6 节 中 看 到 的 ， 分 支 预测 错误 会 极 大 地 降低 程序 的 性 能 ， 因 此 这 就 
促使 我 们 在 可 能 的 时 候 ， 要 使 用 条 件数 据 传 送 而 不 是 条 件 控制 转移 。 


我 们 还 没有 讨论 预测 ret 指令 的 新 PC 值 。 同 条 件 转移 不 同 ， 此 时 可 能 的 返回 值 几 乎 
是 无 限 的 ， 因 为 返回 地 址 是 位 于 栈 项 的 字 ， 其 内 容 可 以 是 任意 的 。 在 设计 中 ， 我 们 不 会 试 
图 对 返回 地 址 做 任何 预测 。 只 是 简单 地 暂停 处 理 新 指令 ， 直 到 ret 指令 通过 写 回 阶段 。 在 
4. 5. 8 节 中 ， 我 们 将 回 过 来 讨论 这 部 分 的 实现 。 


EE 使 用 栈 的 返回 地 址 预测 

对 大 多 数 程序 来 说 ， 预 测 返 回 值 很 容易 ， 因 为 过 程 调用 和 返回 是 成 对 出 现 的 。 大 多 
数 函 数 调 用 ， 会 返回 到 调用 后 的 那 条 指令 。 高 性 能 处 理 器 中 运用 了 这 个 属性 ， 在 取 指 单 
元 中 放 入 一 个 硬件 栈 ， 保 存 过 程 调用 指令 产生 的 返回 地 址 。 每 次 执行 过 程 调 用 指令 时 ， 
都 将 其 返回 地 址 压 入 栈 中 。 当 取出 一 个 返回 指令 时 ， 就 从 这 个 栈 中 弹出 顶部 的 值 ， 作 为 
预测 的 返回 值 。 同 分 支 预 测 一样 ， 在 预测 错误 时 必须 提供 一 个 恢复 机 制 ， 因 为 还 是 有 调用 
和 返回 不 匹配 的 时 候 。 通 常 ， 这 种 预测 很 可 靠 。 这 个 硬件 栈 对 程序 员 来 说 是 不 可 见 的 。 


PIPE 一 的 取 指 阶段 ， 如 图 4-41 底部 所 示 ， 负 责 预 测 PC 的 下 一 个 值 ， 以 及 为 取 指 选 
择 实际 的 PC。 我们 可 以 看 到 ， 标 号 为 “Predict PC” 的 块 会 从 PC 增加 器 计算 出 的 valP 
和 取出 的 指令 中 得 到 的 valc 中 进行 选择 。 这 个 值 存放 在 流水 线 寄 存 器 下 中 ， 作 为 程序 计 
数 器 的 预测 值 。 标 号 为 “Select PC” 的 块 类 似 于 SEQ 十 的 PC 选择 阶段 中 标号 为 “PC” 的 
块 (图 4-40)。 它 从 三 个 值 中 选择 一 个 作为 指令 内 存 的 地 址 : 预测 的 PC， 对 于 到 达 流 水 线 
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寄存 器 M 的 不 选择 分 支 的 指令 来 说 是 valP 的 值 (存储 在 寄存 器 M vala 中 )， 或 是 当 ret 
指令 到 达 流 水 线 寄存 器 W( 存 储 在 w_valM) 时 的 返回 地 址 的 值 。 


4. 5.5 流水 线 冒 险 


PIPE 一 结构 是 创建 一 个 流水 线 化 的 Y86-64 处 理 器 的 好 开端 。 不 过 ， 回 忆 4.4.4 节 中 
的 讨论 ， 将 流水 线 技术 引入 一 个 带 反 馈 的 系统 ， 当 相 邻 指令 间 存 在 相关 时 会 导致 出 现 问 
题 。 在 完成 我 们 的 设计 之 前 ， 必 须 解 决 这 个 问题 。 这 些 相 关 有 两 种 形式 : 1) 数 据 相 关 ， 下 
一 条 指令 会 用 到 这 一 条 指令 计算 出 的 结果 ; 2) 控 制 相关 ， 一 条 指令 要 确定 下 一 条 指令 的 位 
置 ， 例 如 在 执行 跳 转 、 调 用 或 返回 指令 时 。 这 些 相关 可 能 会 导致 流水 线 产生 计算 错误 ， 称 
为 冒险 (hazard) 。 同 相关 一 样 ， 冒 险 也 可 以 分 为 两 类 : 数据 冒险 (data hazard) 和 控制 冒险 
(control hazard) 。 我 们 首先 关心 的 是 数据 冒险 ， 然 后 再 考虑 控制 冒险 。 

图 4-43 描述 的 是 PIPE 一 处 理 需 处 理 progl 指令 序列 的 情况 。 假 设 在 这 个 例子 以 及 后 
面 的 例子 中 ， 程 序 寄存 器 初始 时 值 都 为 0。 这 段 代码 将 值 10 和 3 放 入 程序 寄存 器 %$rdx 和 
srax， 执 行 三 条 nop 指令 ， 然 后 将 寄存 器 %$rdx 加 到 %rax。 我 们 重点 关注 两 条 irmovd 指 
令 和 addq 指令 之 间 的 数据 相关 造成 的 可 能 的 数据 冒险 。 图 的 右边 是 这 个 指令 序列 的 流水 
线 图 。 图 中 突出 显示 了 周期 6 和 7 的 流水 线 阶段 。 流 水 线 图 的 下 面 是 周期 6 中 写 回 活动 和 
周期 7 中 译 码 活动 的 扩展 说 明 。 在 周期 7 开始 以 后 ， 两 条 irmovq 都 已 经 通过 写 回 阶段 ， 
所 以 寄存 器 文件 保存 着 更 新 过 的 srdx 和 %rax 的 值 。 因 此 ， 当 addaqa 指令 在 周期 7 经 过 译 
码 阶段 时 ， 它 可 以 读 到 源 操作 数 的 正确 值 。 在 此 示例 中 ， 两 条 irmova 指令 和 addq 指令 
之 间 的 数据 相关 没有 造成 数据 冒险 。 

# progl 

Ox000: irmovg $10,%rdx 

Ox00a: irmovd $3,%hrax 

Ox014: nop 

Ox015: nop 

Ox016: nop 

Ox017: addq /hrdx,/hrax 


Ox019: halt 


R[%raxj4— 3 


valA 4— R[%rdx] = 10 
valB<~— RI%rax] = 3 


图 4-43 ”progl 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 6 中 ， 第 二 个 irmovq 将 结果 
与 人 寄存 器 %rax。addq 指令 在 周期 7 读 源 操作 数 ， 因 此 得 到 的 是 srdx 和 %rax 的 正确 值 





我 们 看 到 progl 通过 流水 线 并 得 到 正确 的 结果 ， 因 为 3 条 nop 指令 在 有 数据 相关 的 指 

令 之 间 创 造 了 一 些 延迟 。 让 我 们 来 看 看 如 果 去 掉 这 些 nop 指令 会 发 生 些 什么 。 图 4-44 描 
述 的 是 prog2 程序 的 流水 线 流 程 ， 在 两 条 产生 寄存 融 $rdx 和 %rax 值 的 irmovq 指令 和 以 
这 两 个 寄存 器 作为 操作 数 的 addqg 指令 之 间 有 两 条 nop 指令 。 在 这 种 情况 下 ， 关 键 步骤 发 
生 在 周期 6， 此 时 addq 指令 从 寄存 器 文件 中 读 取 它 的 操作 数 。 该 图 底部 是 这 个 周期 内 流 
水 线 活 动 的 扩展 描述 。 第 一 个 irmovq 指令 已 经 通过 了 写 回 阶段 ， 因 此 程序 寄存 需 %rdqx 已 
经 在 寄存 器 文件 中 更 新 过 了 。 在 该 周期 内 ， 第 二 个 irmovq 指令 处 于 写 回 阶段 ， 因 此 对 程 
序 寄 存 器 srax 的 写 要 到 周期 7 开始 ， 时 钟 上 升 时 ， 才 会 发 生 。 结 果 ， 会 读 出 grax 的 错误 
值 (回想 一 下 ， 我 们 假设 所 有 的 寄存 器 的 初始 值 为 0)， 因 为 对 该 寄存 器 的 写 还 未 发 生 。 很 
明显 ， 我 们 必须 改进 流水 线 让 它 能 够 正确 处 理 这 样 的 冒险 。 

# prog2 

Ox000: irmovg $10,%hrdx 

Ox00a: irmovgq $3,hrax 

Ox014: nop 

Ox015: nop 

Ox016: addq hrdx,hrax 

Ox018: halt 


人 NU > al ef us oe 
RI%raxl<— 3 
ptt] op 时 史 | 和 加 全 | 


aa 
图 4-44 ”prog2 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控 制 。 直 到 周期 7 结束 时 ， 对 寄存 
器 srax 的 写 才 发 生 ， 所 以 addq 指令 在 译 码 阶段 读 出 的 是 该 寄存 器 的 错误 值 


图 4-45 是 当 irmovqg 指令 和 addq 指令 之 间 只 有 一 条 nop 指令 ， 即 为 程序 prog3 时 ， 
发 生 的 情况 。 现 在 我 们 必须 检查 周期 5 内 流水 线 的 行为 ， 此 时 agdq 指令 通过 译 码 阶段 。 
不 幸 的 是 ， 对 寄存 器 %rdqx 的 写 仍 处 在 写 回 阶段 ， 而 对 寄存 器 $rax 的 写 还 处 在 访 存 阶段 。 
因此 ，addq 指令 会 得 到 两 个 错误 的 操作 数 。 

图 4-46 是 当 去 掉 irmovq 指令 和 addq 指令 间 的 所 有 nop 指令 ， 即 为 程序 prog4 时 ， 
发 生 的 情况 。 现 在 我 们 必须 检查 周期 4 内 流水 线 的 行为 ， 此 时 aqddgqg 指令 通过 译 码 阶段 。 
不 幸 的 是 ， 对 寄存 器 srqx 的 写 仍 处 在 访 存 阶段 ， 而 执行 阶段 正在 计算 寄存 右 %$rax 的 新 
值 。 因 此 ，aqdq 指令 的 两 个 操作 数 都 是 不 正确 的 。 

这 些 例子 说 明 ， 如 果 一 条 指令 的 操作 数 被 它 前 面 三 条 指令 中 的 任意 一 条 改变 的 话 ， 者 
会 出 现 数据 冒险 。 之 所 以 会 出 现 这 些 冒险 ， 是 因为 我 们 的 流水 线 化 的 处 理 絮 是 在 译 码 阶段 
从 寄存 器 文件 中 读 取 指令 的 操作 数 ， 而 要 到 三 个 周期 以 后 ， 指 令 经 过 写 回 阶段 时 ， 才 会 将 
指令 的 结果 写 到 寄存 右 文 件 。 
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: irmovg $10,%rdx 


: irmovgq $3,hrax 


: nop 
: addq hrdx,rax 
: halt 


Ys \ -4 
所 
和 - 1 四 
| 


valAA4- R[prdx]=0 
valB<— RI%rax]=0 


图 4-45 prog3 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 5，addq 指令 从 寄存 器 文件 中 读 源 


图 4-46 


操作 数 。 对 寄存 器 $rdx 的 写 仍 处 在 写 回 阶段 ， 而 对 寄存 器 srax 的 写 还 在 访 存 阶段 。 两 个 操作 
数 valA 和 valB 得 到 的 都 是 错误 值 


# prog4 

Ox000: irmovg $10,%hrdx 
Ox00a: irmovg $3,%hrax 
Ox014: addq %rdx,hrax 
Ox016: halt 


M_valE = 10 
M_dstE = %rdx 


mm me wy 


3 
加 


e valE<— 0+3=3 
E_dstE = %rax 


We - 


valA<— RI%rdx]=0 
valB <— RI%rax] =0 





prog4 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 4，adda 指令 从 寄存 器 文件 中 读 源 
操作 数 。 对 寄存 器 $rdx 的 写 仍 处 在 访 存 阶段 ， 而 执行 阶段 正在 计算 寄存 器 srax 的 新 值 。 两 个 操作 数 
valA 和 valB 得 到 的 都 是 错误 值 
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EE 列举 数据 冒险 的 类 型 

当 一 条 指令 更 新 后 面 指令 会 读 到 的 那些 程序 状态 时 ， 就 有 可 能 出 现 冒 险 。 对 于 
Y86-64 来 说 ， 程 序 状 态 包括 程序 寄存 器 、 程 序 计 数 器 、 内 存 、 条 件 码 寄存 器 和 状态 寄 
存 器 。 让 我 们 来 看 看 在 提出 的 设计 中 每 类 状态 出 现 冒 险 的 可 能 性 。 

程序 寄存 器 : 我 们 已 经 认识 这 种 冒险 了 。 出 现 这 种 冒险 是 因为 寄存 器 文件 的 读 写 是 
在 不 同 的 阶段 进行 的 ， 寻 和 致 不 同 指令 之 间 可 能 出 现 不 希望 的 相互 作用 。 

程序 计数 器 : 更 新 和 读 取 程 序 计 数 器 之 间 的 冲突 导致 了 控制 冒险 。 当 我 们 的 取 指 阶 
段 远 辑 在 取 下 一 条 指令 之 前 ， 正 确 预 测 了 程序 计数 器 的 新 值 时 ， 就 不 会 产生 冒险 。 预 测 
错误 的 分 支 和 ret 指令 需要 特殊 的 处 理 ， 会 在 4.5.5 节 中 讨论 。 

内 存 : 对 数据 内 存 的 读 和 写 都 发 生 在 访 存 阶段 。 在 一 条 读 内 存 的 指令 到 达 这 个 阶段 之 
前 ， 前 面 所 有 要 写 内 存 的 指令 都 已 经 完成 这 个 阶段 了 。 另 外 ， 在 访 存 阶段 中 写 数据 的 指令 
和 在 取 指 阶段 中 读 指 令 之 间 也 有 冲突 ， 因 为 指令 和 数据 内 存 访问 的 是 同一 个 地 址 空间 。 只 
有 包含 自我 修改 代码 的 程序 才 会 发 生 这 种 情况 ， 在 这 样 的 程序 中 ， 指 令 写 内 存 的 一 部 分 ， 
过 后 会 从 中 取出 指令 。 有 些 系统 有 复杂 的 机 制 来 检测 和 避免 这 种 冒险 ， 而 有 些 系统 只 是 简 
单 地 强制 要 求 程 序 不 应 该 使 用 自我 修改 代码 。 为 了 简便 ， 假 设 程序 不 能 修改 自身 ， 因 此 我 们 
不 需要 采取 特殊 的 措施 ， 根 据 在 程序 执行 过 程 中 对 数据 内 存 的 修改 来 修改 指令 内 存 。 

条 件 码 寄存 器 : 在 执行 阶段 中 ， 整 数 操 作 会 写 这 些 寄存 器 。 条 件 传 送 指令 会 在 执行 
阶段 以 及 条 件 转 移 会 在 访 存 阶段 读 这 些 寄存 器 。 在 条 件 传 送 或 转移 到 达 执 行 阶段 之 前 ， 
前 面 所 有 的 整数 操作 都 已 经 完成 这 个 阶段 了 。 所 以 不 会 发 生 冒 险 。 

状态 寄存 器 : 指令 流 经 流水 线 的 时 候 ， 会 影响 程序 状态 。 我 们 采用 流水 线 中 的 每 条 
章 令 都 与 一 个 状态 码 相 关联 的 机 制 ， 使 得 当 异 常 发 生 时 ， 处 理 器 能 够 有 条 理 地 停止 ， 就 
像 在 4.5.6 节 中 会 讲 到 的 那样 。 

这 些 分 析 表 明 我 们 只 需要 处 理 寄 存 器 数据 冒险 、 控 制 冒 险 ， 以 及 确保 能 够 正确 处 理 
异常 。 当 设计 一 个 复杂 系统 时 ， 这 样 的 分 类 分 析 是 很 重要 的 。 这 样 做 可 以 确认 出 系统 实 
现 中 可 能 的 困难 ， 还 可 以 指导 生成 用 于 检查 系统 正确 性 的 测试 程序 。 


1. 用 暂停 来 避免 数据 冒险 

暂停 (stalling) 是 避免 冒险 的 一 种 常用 技术 ， 暂 停 时 ， 处 理 器 会 停止 流水 线 中 一 条 或 多 
条 指令 ， 直 到 冒险 条 件 不 再 满足 。 让 一 条 指令 停顿 在 译 码 阶段 ， 直 到 产生 它 的 源 操作 数 的 
指令 通过 了 写 回 阶段 ， 这 样 我 们 的 处 理 器 就 能 避免 数据 冒险 。 这 种 机 制 的 细节 会 在 4. 5.8 
市 中 讨论 。 它 对 流水 线 控制 逻辑 做 了 一 些 简 单 的 加 强 。 图 4-47(prog2) 和 图 4-48(prog4) 
中 画 出 了 暂停 的 效果 。( 在 这 里 的 讨论 中 我 们 省 略 了 prog3， 因 为 它 的 运行 类 似 于 其 他 两 
个 例子 。) 当 指令 addq 处 于 译 码 阶 段 时 ， 流水线 控 制 逻辑 发 现 执行 、 访 存 或 写 回 阶段 中 至 
少 有 一 条 指令 会 更 新 寄存 器 $rdx 或 srax。 处 理 器 不 会 让 addq 指令 带 着 不 正确 的 结果 通过 
这 个 阶段 ， 而 是 会 暂停 指令 ， 将 它 阻 塞 在 译 码 阶段 ， 时 间 为 一 个 周期 (对 prog2 来 说 ) 或 者 
三 个 周期 (对 prog4 来 说 )。 对 所 有 这 三 个 程序 来 说 ，addq 指令 最 终 都 会 在 周期 7 中 得 到 
两 个 源 操作 数 的 正确 值 ， 然 后 继续 沿 着 流水 线 进行 下 去 。 

将 addq 指令 阻塞 在 译 码 阶段 时 ， 我 们 还 必须 将 紧 跟 其 后 的 halt 指令 阻塞 在 取 指 阶 
段 。 通 过 将 程序 计数 需 保 持 不 变 就 能 做 到 这 一 点 ， 这 样 一 来 ， 会 不 断 地 对 halt 指令 进行 
取 指 ， 直 到 暂停 结束 。 
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暂停 技术 就 是 让 一 组 指令 阻塞 在 它们 所 处 的 阶段 ， 而 允许 其 他 指令 继续 通过 流水 线 。 
那么 在 本 该 正常 处 理 addq 指令 的 阶段 中 ， 我 们 该 做 些 什么 呢 ? 我 们 使 用 的 处 理 方法 是 : 
每 次 要 把 一 条 指令 阻塞 在 译 码 阶段 ， 就 在 执行 阶段 插入 一 个 气泡 。 气 泡 就 像 一 个 自动 产生 
的 nop 指令 一 一 它 不 会 改变 寄存 器 、 内 存 、 条 件 码 或 程序 状态 。 在 图 4-47 和 图 4-48 的 流 
水 线 图 中 ， 目 色 方 框 表示 的 就 是 气泡 。 在 这 些 图 中 ， 我 们 用 一 个 addq 指令 的 标号 为 “D” 
的 方 框 到 标号 为 “下 ”的 方 框 之 间 的 箭头 来 表示 一 个 流水 线 气 泡 ， 这 些 箭头 表明 ， 在 执行 
阶段 中 插入 气泡 是 为 了 替代 aqdqq 指令 ， 它 本 来 应 该 经 过 译 码 阶段 进入 执行 阶段 。 在 
4. 5. 8 方 中 ， 我 们 将 看 到 使 流水 线 暂 停 以 及 插入 气泡 的 详细 机 制 。 


# prog2 
Ox000: irmovg $10,%hrdx 


Ox00a: irmovg $3,%hrax 


Ox014: nop 
Ox015: nop 
bubble 
Ox016: addlq hrdx,hrax 
Ox018: halt 





由 447 prog2 使 用 暂停 的 流水 线 化 的 执行 。 在 周期 6 中 对 addq 指令 译 码 之 后 ， 暂 停 控制 逻辑 发 现 
一 个 数据 冒险 ， 它 是 由 写 回 阶段 中 对 寄存 器 srax 未 进行 的 写 造 成 的 。 它 在 执行 阶段 中 插入 
一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 addq 的 译 码 。 实 际 上 ， 机 器 是 动态 地 插入 一 条 nop 指 


令 ， 得 到 的 执行 流 类 似 于 progi 的 执行 流 (图 4-43) 


# prog4 
Ox000: irmovg $10,%hrdx 


Ox00a: irmovg $3,%rax 
bubble 


bubble 

bubble 

addq hrdx, rax 
halt 





图 448 prog4 使 用 暂停 的 流水 线 化 的 执行 。 在 周期 4 中 对 addq 指令 译 码 之 后 ， 暂 停 控 制 逻 辑 发 现 
了 对 两 个 源 寄存 器 的 数据 冒险 。 它 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周期 5 中 重复 对 指令 
addq 的 译 码 。 它 再 次 发 现 对 两 个 源 寄 存 器 的 冒险 ， 就 在 执行 阶段 中 捅 和 一 个 气泡 ， 并 在 周 
期 6 中 重复 对 指令 adda 的 译 码 。 它 再 次 发 现 对 寄存 器 $rax 的 冒险 ， 就 在 执行 阶段 中 插入 
一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 addq 的 译 码 。 实 际 上 ， 机 器 是 动态 地 插入 三 条 nop 指 
令 ， 得 到 的 执行 流 类 似 于 progl 的 执行 流 ( 图 4-43) 


在 使 用 暂停 技术 来 解决 数据 冒险 的 过 程 中 ， 我 们 通过 动态 地 产生 和 progl 流 ( 图 4-43) 
一 样 的 流水 线 流 ， 有 效 地 执行 了 程序 prog2 和 prog4。 为 prog2 插 入 1 个 气泡 ， 为 prog4 
插入 3 个 气泡 ， 与 在 第 2 条 irmovq 指令 和 addq 指令 之 间 有 3 条 nop 指令 ， 有 相同 的 效 
果 。 虽 然 实 现 这 一 机 制 相 当 容 易 ( 参 考 家 庭 作 业 4. 53) ， 但 是 得 到 的 性 能 并 不 很 好 。 一 条 指 
令 更 新 一 个 寄存 右 ， 紧 跟 其 后 的 指令 就 使 用 被 更 新 的 寄存 器 ， 像 这 样 的 情况 不 胜 枚 举 。 这 
会 导致 流水 线 暂停 长 达 三 个 周期 ， 严 重 降低 了 整体 的 吞吐 量 。 
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2. 用 转发 来 避免 数据 冒险 

PIPE -的 设计 是 在 译 码 阶段 从 寄存 器 文件 中 读 入 源 操作 数 ， 但 是 对 这 些 源 寄存 器 的 瑟 有 
可 能 要 在 写 回 阶段 才能 进行 。 与 其 暂停 直到 写 完成 ， 不 如 简单 地 将 要 写 的 值 传 到 流水 线 寄存 
句 EE 作为 源 操作 数 。 图 4-49 用 prog2 周期 6 的 流水 线 图 的 扩展 描述 来 说 明了 这 一 策略 。 译 
码 阶 段 逻 辑 发 现 ， 寄 存 器 %rax 是 操作 数 valB 的 源 寄 存 器 ， 而 在 写 端 口 下 上 还 有 一 个 对 %rax 
的 未 进行 的 写 。 它 只 要 人 简单 地 将 提供 到 端口 E 的 数据 字 ( 信 号 W_valE) 作 为 操作 数 valB 的 
值 ， 就 能 避免 暂停 。 这 种 将 结果 值 直 接 从 一 个 流水 线 阶 段 传 到 较 早 阶段 的 技术 称 为 数据 转发 
(data forwarding， 或 简称 转发 ， 有 时 称 为 旁 路 (bypassing))。 它 使 得 prog2 的 指令 能 通过 流水 线 
而 不 需要 任何 暂停 。 数 据 转 发 需要 在 基本 的 硬件 结构 中 增加 一 些 额 外 的 数据 连接 和 控制 逻辑 。 


: irmovg $10,%rdx 
: irmovgq $3,hrax 
: nop 

: nop 

: addq hrdx,hrax 
: halt 


po i ,i Ty A rm 

te A EN la 

ra rs i 
SrcA = /rdx valA <— R[4rdx] = 10 
srcB = hrax valB<— W_valf =3 


= a 





图 4-49 ”prog2 使 用 转发 的 流水 线 化 的 执行 。 在 周期 6 中 ， 译 码 阶段 人 逻辑 发 现 有 在 写 回 阶段 中 
对 寄存 能 %rax 未 进行 的 写 。 它 用 这 个 值 ， 而 不 是 从 寄存 器 文件 中 读 出 的 值 ， 作 为 源 
操作 数 valB 


如 图 450 所 示 ， 当 访 存 阶 段 中 有 对 寄存 需 未 进行 的 写 时 ， 也 可 以 使 用 数据 转发 ， 以 
避免 程序 prog3 中 的 暂停 。 在 周期 5 中 ， 译 码 阶 段 逻 辑 发 现 ， 在 写 回 阶段 中 端口 EE 上 有 对 
寄存 器 srdx 未 进行 的 写 ， 以 及 在 访 存 阶段 中 有 会 在 端口 下 上 对 寄存 器 srax 未 进行 的 与 。 
它 不 会 暂停 直到 这 些 写真 正 发 生 ， 而 是 用 写 回 阶段 中 的 值 ( 信 号 W_valE) 作 为 操作 数 va- 
1A， 用 访 存 阶段 中 的 值 ( 信 号 M valE) 作 为 操作 数 valB。 

为 了 充分 利用 数据 转发 技术 ， 我 们 还 可 以 将 新 计算 出 来 的 值 从 执行 阶段 传 到 译 码 阶段 ， 
以 避免 程序 prog4 所 需要 的 暂停 ， 如 图 4-51 所 示 。 在 周期 4 中 ， 译 码 阶 段 逻辑 发 现在 访 存 阶 
段 中 有 对 寄存 器 srdqx 未 进行 的 写 ， 而 且 执行 阶段 中 ALU 正在 计算 的 值 稍 后 也 会 写 人 寄存 
髓 srax。 它 可 以 将 访 存 阶段 中 的 值 ( 信 号 M valE) 作 为 操作 数 valA， 也 可 以 将 ALU 的 输出 
(信号 e_valE) 作 为 操作 数 valB。 注 意 ， 使 用 ALU 的 输出 不 会 造成 任何 时 序 问题 。 译 码 阶段 
只 要 在 时 钟 周 期 结束 之 前 产生 信号 valA 和 valB， 这 样 在 时 钟 上 升 开 始 下 一 个 周期 时 ， 流 水 
线 寄存 右上 就 能 装载 来 自 译 码 阶 段 的 值 了 了。 而 在 此 之 前 ALU 的 输出 已 经 是 合法 的 了 。 
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: irmovgd $10,hrdx 


: irmovg $3,hrax 


: nop 
: addq hrdx,/hrax 
: halt 


4 
Ne 


W _dstE = %rdx RI%rdx]<— 10 
W_valE = 10 rT 


M_dstE = %rax a A 
M_valE =3 - -一 - i ee , 1 


1 
| Fy 


SrcA = %rdx valA<—W _valE = 10 
SrCB = /rax valB<— M_valE = 3 


一 加 





图 4-50 prog3 使 用 转发 的 流水 线 化 的 执行 。 在 周期 5 中 ， 译 码 阶段 逻辑 发 现 有 在 写 回 阶段 中 对 寄存 器 
srdx 未 进行 的 写 ， 以 及 在 访 存 阶 段 中 对 寄存 器 %rax 未 进行 的 写 。 它 用 这 些 值 ， 而 不 是 从 寄存 器 
文件 中 读 出 的 值 ， 作 为 valA 和 valB 的 值 


: irmovd $10,%rdx 
: irmovd $3,%rax 
: addq hrdx,%rax 
: halt 


M_dstE = Yrax 
M_valE = 10 


E. dstk = Xtrax 
e valE<-0+3=3 站 


valA<—M valE = 10 
valB<— 6 valE =3 


图 4-51 prog4 使 用 转发 的 流水 线 化 的 执行 。 在 周期 4 中 ， 译 码 阶段 逻辑 发 现 有 在 访 存 阶段 中 对 寄存 
器 %$rdx 未 进行 的 写 ， 还 发 现在 执行 阶段 中 正在 计算 寄存 器 8rax 的 新 值 。 它 用 这 些 值 ， 而 不 是 从 
寄存 器 文件 中 读 出 的 值 ， 作 为 vala 和 valB 的 值 


SrCA = /rdx 
SrcB = /raxX 
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程序 prog2 一 prog4 中 描述 的 转发 技术 的 使 用 都 是 将 ALU 产生 的 以 及 其 目标 为 写 端 
口 的 值 进行 转发 ， 其实 也 可 以 转发 从 内 存 中 读 出 的 以 及 其 目标 为 写 端口 M 的 值 。 从 访 
存 阶段 ， 我 们 可 以 转发 刚刚 从 数据 内 存 中 读 出 的 值 (信号 m_valM) 。 从 写 回 阶段 ， 我 们 可 以 转 
发 对 端口 M 未 进行 的 写 ( 信 号 W_valM)。 这 样 一 共 就 有 五 个 不 同 的 转发 源 (e_valE、m_valM.、 
M valE、W valM 和 W valE)， 以 及 两 个 不 同 的 转发 目的 (valA 和 valB)。 


[mm en re 


i imem_error : 
instr_valid ; 





流水 线 化 的 最 终 实现 一 -PIPE 的 硬件 结构 。 添 加 的 旁 路 路 径 能 够 转发 前 面 三 条 指令 
的 结果 。 这 使 得 我 们 能 够 不 暂停 流水 线 就 处 理 大 多 数 形式 的 数据 冒险 


图 4=52 
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图 4-49 一 图 4-51 的 扩展 图 还 表明 译 码 阶 段 软 辑 能 够 确定 是 使 用 来 自 寄存 器 文件 的 值 ， 
还 是 要 用 转发 过 来 的 值 。 与 每 个 要 写 回 寄存 器 文件 的 值 相关 的 是 目的 寄存 器 ID。 逻辑 会 
将 这 些 ID 与 源 寄存 器 ID srcA 和 srcB 相 比 较 ， 以 此 来 检测 是 否 需 要 转发 。 可 能 有 多 个 目 
的 寄存 器 ID 与 一 个 源 ID 相等 。 要 解决 这 样 的 情况 ， 我们 必须 在 各 个 转发 源 中 建立 起 优先 
级 关系 。 在 学 习 转 发 逻辑 的 详细 设计 时 ， 我 们 会 讨论 这 个 内 容 。 

图 4-52 给 出 的 是 PIPE 的 结构 ， 它 是 PIPE 一 的 扩展 ， 能 通过 转发 处 理 数据 冒险 。 将 
这 幅 图 与 PIPE 一 的 结构 (图 4-41) 相 比 ， 我 们 可 以 看 到 来 自 五 个 转发 源 的 值 反 馈 到 译 码 阶段 
中 两 个 标号 为 “Sel 十 Fwd A” 和 “Fwd B” 的 块 。 标 号 为 “Sel 十 Fwd A” 的 块 是 PIPE 一 
中 标号 为 “Select A” 的 块 的 功能 与 转发 逻辑 的 结合 。 它 允许 流水 线 寄存 器 的 vala 为 
已 增加 的 程序 计数 器 值 vaLlP， 从 寄存 需 文 件 A 端口 谈 出 的 值 ， 或 者 某 个 转发 过 来 的 值 。 
标号 为 “Fwd B” 的 块 实现 的 是 源 操作 数 valB 的 转发 逻辑 。 

3. 加 载 /使 用 数据 冒险 

有 一 类 数据 冒险 不 能 单纯 用 转发 来 解决 ， 因 为 内 存 读 在 流水 线 发 生 的 比较 晚 。 图 4-53 举 
例 说 明了 加 载 /使 用 冒险 (load/use hazard) ， 其 中 一 条 指令 (位 于 地 址 0x028 的 mrmovg) 从 内 存 
中 读 出 寄存 器 srax 的 值 ， 而 下 一 条 指令 (位 于 地 址 0x032 的 adqq) 需 要 该 值 作为 源 操作 数 。 
图 的 下 部 是 周期 7 和 8 的 扩展 说 明 ， 在 此 假设 所 有 的 程序 寄存 器 都 初始 化 为 0。adda 指令 在 
周期 7 中 需要 该 寄存 器 的 值 ， 但 是 mrmovq 指令 直到 周期 8 才 产 生出 这 个 值 。 为 了 从 mrmovq 
“转发 到 ”addq， 转 发 逻辑 不 得 不 将 值 送 回 到 过 去 的 时 间 ! 这 显然 是 不 可 能 的 ， 我 们 必须 找 
到 其 他 机 制 来 解决 这 种 形式 的 数据 冒险 。( 位 于 地 址 0x01e 的 irmovq 指令 产生 的 寄存 器 %rbx 
的 值 ， 会 被 位 于 地 址 0x032 的 addq 指令 使 用 ， 转 发 能 够 处 理 这 种 数据 冒险 。) 


# prog5 

Ox000: irmovg $128,%rdx 

Ox00a: irmovg $3,%hrcx 

Ox014: rmmovg hrcx, 0(%rdx) 

OxOle: irmovg $10,%rbx 

Ox028: mrmovg 0(%rdx),%rax # Load /hrax 
Ox032: addq hebx,%heax # Use /rax 
Ox034: halt 


et SSTE SN 
a er pe Sy 
“A I - *r on 
-MA 下 


by 
a 


La 


M_dstE = Arbx M_dstM = 人 Ka 
M_valE = 10 量 m_VvalM 4 一 M[128] = 3 





图 4-53 加载 /使 用 数据 冒险 的 示例 。adda 指令 在 周期 7 译 码 阶段 中 需要 寄存 器 srax 的 值 。 前 面 的 
mrmovq 指令 在 周期 8 访 存 阶 段 中 读 出 这 个 寄存 器 的 新 值 ， 这 对 于 addq 指令 来 说 太 迟 了 
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如 图 4-54 所 示 ， 我 们 可 以 将 暂停 和 转发 结合 起 来 ， 避 人 免 加 载 /使 用 数据 冒险 。 这 个 需 
要 修改 控制 逻辑 ， 但 是 可 以 使 用 现 有 的 旁 路 路 径 。 当 mrmovq 指令 通过 执行 阶段 时 ， 流水 
线 控制 逻辑 发 现 译 码 阶段 中 的 指令 (addq) 需 要 从 内 存 中 读 出 的 结果 。 它 会 将 译 码 阶 段 中 的 
指令 暂停 一 个 周期 ， 导 致 执行 阶段 中 插入 一 个 气泡 。 如 周期 8 的 扩展 说 明 所 示 ， 从 内 存 中 
读 出 的 值 可 以 从 访 存 阶段 转发 到 译 码 阶段 中 的 addq 指令 。 寄 存 器 %rbx 的 值 也 可 以 从 访 存 
阶段 转发 到 译 码 阶段 。 就 像 流水 线 图 ， 从 周期 7 中 标号 为 “D” 的 方 框 到 周期 8 中 标号 为 
“下 ”的 方 框 的 箭头 表明 的 那样 ， 插 入 的 气泡 代替 了 正常 情况 下 本 来 应 该 继续 通过 流水 线 的 
addq 指令 。 


# PIOg5 
Ox000: irmovq $128 , prdx 
0Ox00a: irmovg $3,hrcx 
0x014: rmmovg %rcx, O(hrdx) 
OxOie: irmovg $10,%rbx 
Ox028: mrmovg 0(%rdx),%hrax # Load %hrax 
bubble 
Ox032: addq hrbx,hrax # Use hrax 
Ox034: halt 


W dstE=%rbx ” 国 
W_valE = 10 ya 


M_dstM = %rax 
m_valM <—M[128] = 3 


valA<— W_valE = 10 
valB <— m_valM = 3 





图 4-54 用 暂停 来 处 理 加 载 /使 用 冒险 。 通 过 将 addg 指令 在 译 码 阶段 暂停 一 个 周期 ， 就 可 以 将 valB 
的 值 从 访 存 阶段 中 的 mrmovq 指令 转发 到 译 码 阶段 中 的 addqg 指令 


这 种 用 暂停 来 处 理 加 载 / 使 用 冒险 的 方法 称 为 加 载 互 锁 (load interlock)。 加 载 互 锁 和 
转发 技术 结合 起 来 足以 处 理 所 有 可 能 类 型 的 数据 冒险 。 因 为 只 有 加 载 互 锁 会 降低 流水 线 的 
符 吐 量 ， 我 们 几乎 可 以 实现 每 个 时 钟 周期 发 射 一 条 新 指令 的 厨 吐 量 目标 。 

4. 避免 控制 冒险 

当 处 理 器 无 法 根据 处 于 取 指 阶段 的 当前 指令 来 确定 下 一 条 指令 的 地 址 时 ， 就 会 出 现 控 
制 冒险 。 如 同 在 4. 5.4 节 讨 论 过 的 ， 在 我 们 的 流水 线 化 处 理 右 中 ， 控 制 冒 险 只 会 发 生 在 
ret 指令 和 跳 转 指 令 。 而 且 ， 后 一 种 情况 只 有 在 条 件 跳 转 方 呵 预测 错误 时 才 会 造成 且 烦 。 
在 本 小 节 中 ， 我 们 概括 介绍 如 何 来 处 理 这 些 冒 险 。 作 为 对 流水 线 控制 更 一 般 性 讨论 的 一 部 


-总 
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分 ， 其 详细 实现 将 在 4. 5. 8 节 给 出 。 
对 于 ret 指令 ， 考 虑 下 面 的 示例 程序 。 这 个 程序 是 用 汇编 代码 表示 的 ， 左 边 是 各 个 指 
令 的 地 址 ， 以 供 参 


图 4-55 


址 ， 


Ox000: 


OxO00a: 
OXO13 : 


Ox01d: 


Ox020: 
0x020: 
Ox020: 
Ox021: 
0x030: 
Ox030: 


irmovg stack,hrsp # 
call proc 天 
irmovg $10 ,prdx # 


考 : 


Initialize stack pointer 
Procedure call 
Return point 


halt 
.PoS Ox20 
proc: # proc: 
ret # Return immediately 


rrmovd hrdx,hrbx  # 


Not executed 


.Pos Ox30 


stack: 


# stack: Stack pointer 


图 4-55 给 出 了 我 们 希望 流水 线 如 何 来 处 理 ret 指令 。 同 前 面 的 流水 线 图 一 样 ， 这 幅 
图 展示 了 流水 线 的 活动 ， 时 间 从 左 向 右 增 加 。 与 前 面 不 同 的 是 ， 指 令 列 出 的 顺序 与 它们 在 
程序 中 出 现 的 顺序 并 不 相同 ， 这 是 因为 这 个 程序 的 控制 流 中 指令 并 不 是 按 线性 顺序 执行 
的 。 看 看 指令 的 地 址 就 能 看 出 它们 在 程序 中 的 位 置 。 


ret 

bubble 
bubble 
bubble 


irmovg Stack,%edx 


call proc 


irmovg $10,%rdx # Return point 





ret 指令 处 理 的 简化 视图 。 当 ret 经 过 译 码 、 执 行 和 访 存 阶段 时 ， 流 水 线 应 该 暂停 ， 在 处 理 


过 程 中 插入 三 个 气泡 。 一旦 ret 指令 到 达 写 回 阶 段 ( 周 期 7)，PC 选择 逻辑 就 会 选择 返回 地 址 作为 
指令 的 取 指 地 址 


如 这 张 图 所 示 ， 在 周期 3 中 取出 ret 指令 ， 并 沿 着 流水 线 前 进 ， 在 周期 7 进入 写 回 阶 
段 。 在 它 经 过 译 码 、 执 行 和 访 存 阶段 时 ， 流 水 线 不 能 做 任何 有 用 的 活动 。 我 们 只 能 在 流水 
线 中 插入 三 个 气泡 。 一 旦 ret 指令 到 达 写 回 阶 段 ，PC 选择 逻辑 就 会 将 程序 计数 需 设 为 返 
回 地址， 然后 取 指 阶段 就 会 取出 位 于 返回 点 (地 址 0x013) 处 的 irmova 指令。 

要 处 理 预 测 错误 的 分 支 ， 考 虑 下 面 这 个 用 汇编 代码 表示 的 程序 ， 左 边 是 各 个 指令 的 地 


以 供 参 考 : 

0x000: XOrqd hrax,Wrax 

0x002: jne target # Not taken 
0Ox00b : irmovg $1, hrax # Fall through 
Ox015: halt 

Ox016: target: 

0x016 : irmovq $2, %rdx # Target 
Ox020: irmovg $3, hrbx # Target+1 
Ox02a: halt 


图 4-56 表明 是 如 何 处 理 这 些 指 令 的 。 


同 前 面 一 样 ， 指 令 是 按照 它们 进入 流水 线 的 顺 


序列 出 的 ， 而 不 是 按照 它们 出 现在 程序 中 的 顺序 。 因 为 预测 跳 转 指令 会 选择 分 文 ， 所 以 周 
期 3 中 会 取出 位 于 跳 转 目标 处 的 指令 ， 而 周期 4 中 会 取出 该 指令 后 的 那 条 指令 。 在 周期 4， 
分 支 逻 辑 发 现 不 应 该 选择 分 支 之 前 ,已 经 取出 了 两 条 指令 ， 它 们 不 应 该 继续 执行 下 去 了 。 
幸运 的 是 ， 这 两 条 指令 都 没有 导致 程序 员 可 见 的 状态 发 生 改 变 。 只 有 到 指令 到 达 执 行 阶段 
时 才 会 发 生 那 种 情况 ， 在 执行 阶段 中 ， 指 令 会 改变 条 件 码 。 我 们 只 要 在 下 一 个 周期 往 详 但 
和 执行 阶段 中 插入 气泡 ， 并 同时 取出 跳 转 指令 后 面 的 指令 ， 这 样 就 能 取消 (有 时 也 称 为 指 
令 排 除 (instruction squashing)) 那 两 条 预测 错误 的 指令 。 这 样 一 来 ， 两 条 预测 错误 的 指令 
就 会 简单 地 从 流水 线 中 消失 ， 因 此 不 会 对 程序 员 可 见 的 状态 产生 影响 。 唯 一 的 缺点 是 两 个 
时 钟 周期 的 指令 处 理 能 力 被 浪费 了 。 


# prog7 

Ox000: xorq hrax,hrax 

Ox002: jne target # Not taken 

Ox016: irmovl $2 ,prdx # Target 
bubble 
irmovl] $3,hrbx # Target+1 
bubble 


irmovg $1,hrax # Fall through 
halt 





图 4-56 ”处 理 预测 错误 的 分 支 指令 。 流 水 线 预测 会 选择 分 支 ， 所 以 开始 取 跳 转 目标 处 的 指令 。 
在 周期 4 发 现 预测 错误 之 前 ， 已 经 取出 了 两 条 指令 ， 此 时 ， 跳 转 指令 正在 通过 执行 
阶段 。 在 周期 5 中， 流水线 往 译 码 和 执行 阶段 中 插入 气泡 ， 取 消 了 两 条 目标 指令 ， 
同时 还 取出 跳 转 后 面 的 那 条 指令 


对 控制 冒险 的 讨论 表明 ， 通 过 慎重 考虑 流水 线 的 控制 逻辑 ， 控 制 冒 险 是 可 以 被 处 理 
的 。 在 出 现 特殊 情况 时 ， 暂 停 和 往 流 水 线 中 插入 气泡 的 技术 可 以 动态 调整 流水 线 的 流程 。 
如 同 我 们 将 在 4. 5. 8 节 中 讨论 的 一 样 ， 对 基本 时 钟 寄存 器 设计 的 简单 扩展 就 可 以 让 我 们 和 暂 
停 流 水 段 ， 并 向 作为 流水 线 控制 逻辑 一 部 分 的 流水 线 寄存 副 中 插入 气泡 。 


4.5.6 异常 处 理 


正如 第 8 章 中 将 讨论 的 ， 处 理 器 中 很 多 事情 都 会 导致 异常 控制 流 ， 此 时 ， 程 序 执行 的 
正常 流程 被 破坏 掉 。 异 常 可 以 由 程序 执行 从 内 部 产生 ， 也 可 以 由 某 个 外 部 信号 从 外 部 产 
生 。 我 们 的 指令 集体 系 结构 包括 三 种 不 同 的 内 部 产生 的 异 稼 : 1)halt 指 令 ，2) 有 非法 指 
令 和 功能 码 组 合 的 指令 ，3) 取 指 或 数据 读 写 试图 访问 一 个 非法 地 址 。 一 个 更 完整 的 处 理 融 
设计 应 该 也 能 处 理 外 部 异常 ， 例 如 当 处 理 器 收 到 一 个 网 络 接 口 收 到 新 包 的 信号 ， 或 是 一 个 
用 户 点 击 鼠 标 按 钮 的 信号 。 正 确 处 理 异 常 是 任何 微 处 理 需 设计 中 很 有 挑战 性 的 一 方面 。 异 
常 可 能 出 现在 不 可 预测 的 时 间 ， 需 要 明确 地 中 断 通 过 处 理 器 流水 线 的 指令 流 。 我 们 对 这 三 
种 内 部 异常 的 处 理 只 是 让 你 对 正确 发 现 和 处 理 异 常 的 真实 复杂 性 略 有 了 解 。 

我 们 把 导致 异常 的 指令 称 为 异常 指令 (excepting instruction) 。 在 使 用 非法 指令 地 址 的 
情况 中 ， 没 有 实际 的 异常 指令 ， 但 是 想象 在 非法 地 址 处 有 一 种 “虚拟 指令 ”会 有 所 带 助 。 
在 简化 的 ISA 模型 中 ， 我 们 希望 当 处 理 器 遇 到 异常 时 ， 会 停止 ， 设 置 适 当 的 状态 码 ， 如 图 
4-5 所 示 。 看 上 去 应 该 是 到 异常 指令 之 前 的 所 有 指令 都 已 经 完成 ， 而 其 后 的 指令 都 不 应 该 
对 程序 员 可 见 的 状态 产生 任何 影响 。 在 一 个 更 完整 的 设计 中 ， 处 理 器 会 继续 调用 异 第 处 理 
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程序 (exception handler)， 这 是 操作 系统 的 一 部 分 ,但 是 实现 异常 处 理 的 这 部 分 超出 了 本 
书 讲述 的 范围 。 

在 一 个 流水 线 化 的 系统 中 ， 异 和 常 处 理 包 括 一 些 细节 问题 。 首 先 ， 可 能 同时 有 多 条 指 
令 会 引起 异常 。 例 如 ， 在 一 个 流水 线 操作 的 周期 内 ， 取 指 阶 段 中 有 halt 指令 ， 而 数据 
内 存 会 报告 访 存 阶段 中 的 指令 数据 地 址 越界 。 我 们 必须 确定 处 理 器 应 该 向 操作 系统 报告 
哪个 异常 。 基 本 原则 是 : 由 流水 线 中 最 深 的 指令 引起 的 异常 ， 优 先 级 最 高 。 在 上 面 那 个 
例子 中 ， 应 该 报告 访 存 阶段 中 指令 的 地 址 越界 。 就 机 器 语言 程序 来 说 ， 访 存 阶段 中 的 指 
令 本 来 应 该 在 取 指 阶段 中 的 指令 开始 之 前 就 结束 的 ， 所 以 ， 只 应 该 向 操作 系统 报告 这 个 
异常 。 

第 二 个 细节 问题 是 ， 当 首先 取出 一 条 指令 ， 开 始 执行 时 ， 导 致 了 一 个 异常 ， 而 后 来 由 
于 分 文 预测 错误 ， 取 消 了 该 指令 。 下 面 就 是 一 个 程序 示例 的 目标 代码 : 


Ox000: 6300 | xOrd krax, prax 

Ox002: 741600000000000000 | jne target # Not taken 

Ox00b: 30f00100000000000000 | irmovgd $1, hrax # Fall through 

Ox015: 00 | halt 

Ox016: | target: 

Ox016: ff | .byte OxFF # Invalid instruction code 


在 这 个 程序 中 ， 流 水 线 会 预测 选择 分 支 ， 因 此 它 会 取出 并 以 一 个 值 为 0xFF 的 字 节 作 
为 指令 (由 汇编 代码 中 .byte 伪 指 令 产 生 的 ) 。 译 码 阶段 会 因此 发 现 一 个 非法 指令 异常 。 稍 
后 ， 流 水 线 会 发 现 不 应 该 选择 分 支 ， 因 此 根本 就 不 应 该 取出 位 于 地 址 0x016 的 指令 。 流 水 
线 控制 逻辑 会 取消 该 指令 ,但 是 我 们 想 要 避免 出 现 异常 。 

第 三 个 细 届 问题 的 产生 是 因为 流水 线 化 的 处 理 咒 会 在 不 同 的 阶段 更 新 系统 状态 的 不 同 
部 分 。 有 可 能 会 出 现 这 样 的 情况 ， 一 条 指令 导致 了 一 个 异常 ， 它 后 面 的 指令 在 异常 指令 完 
成 之 前 改变 了 部 分 状态 。 比 如 说 ， 考 虑 下 面 的 代码 序列 ， 其 中 假设 不 允许 用 户 程序 访问 64 
位 范围 的 高 病 地 址 : 
irmovg $1,hrax 
xorq hrsp,hrsp # Set stack pointer to 0 and CC to 100 


pushq hrax # Attempt to write to Oxfffffffffffffff8 
addq ‘%rax,hrax # (Should not be executed) Would set CC to 000 


pushq 指令 导致 一 个 地 址 异常 ， 因 为 减 小 栈 指针 会 导致 它 绕 回 到 0xfffffffffffffff8。 
访 存 阶段 中 会 发 现 这 个 异常 。 在 同一 周期 中 ，addq 指令 处 于 执行 阶段 ， 而 它 会 将 条 件 码 
设置 成 新 的 值 。 这 就 会 违反 异常 指令 之 后 的 所 有 指令 都 不 能 影响 系统 状态 的 要 求 。 

一 般 地 ， 通 过 在 流水 线 结构 中 加 入 异 稼 处 理 逻 辑 ， 我们 既 能 够 从 各 个 异常 中 做 出 正确 
的 选择 ， 也 能 够 避免 出 现 由 于 分 文 预测 错误 取出 的 指令 造成 的 异常 。 这 就 是 为 什么 我 们 会 
在 每 个 流水 线 寄 存 器 中 包括 一 个 状态 码 stat( 图 4-41 和 图 4-52) 。 如 果 一 条 指令 在 其 处 理 
中 于 某 个 阶段 产生 了 一 个 异常 ， 这 个 状态 字段 就 被 设置 成 指示 异常 的 种 类 。 异 常 状态 和 该 
指令 的 其 他 信息 一 起 沿 着 流水 线 传播 ， 直 到 它 到 达 写 回 阶 段 。 在 此 ， 流 水 线 控制 逻辑 发 现 
出 现 了 异常 ， 并 停止 执行 。 

为 了 避免 异常 指令 之 后 的 指令 更 新 任何 程序 员 可 见 的 状态 ， 当 处 于 访 存 或 写 回 阶段 中 
的 指令 导致 异常 时 ， 流 水 线 控制 逻辑 必须 禁止 更 新 条 件 码 寄存 器 或 是 数据 内 存 。 在 上 面 的 
示例 程序 中 ， 控 制 逻辑 会 发 现 访 存 阶段 中 的 pushgq 导致 了 异常 ， 因 此 应 该 禁止 addgq 指令 
更 新 条 件 码 寄存 器 。 


~ IO 一 


308 ”第 一 部 分 程序 结构 和 执行 


让 我 们 来 看 看 这 种 处 理 异常 的 方法 是 怎样 解决 刚才 提 到 的 那些 细节 问题 的 。 当 流水 线 
中 有 一 个 或 多 个 阶段 出 现 异 党 时 ， 信 息 只 是 简单 地 存放 在 流水 线 寄存 器 的 状态 字段 中 。 异 
党 事件 不 会 对 流水 线 中 的 指令 流 有 任何 影响 ， 除 了 会 禁止 流水 线 中 后 面 的 指令 更 新 程序 员 
可 见 的 状态 (条 件 码 寄存 大 和 内 存 )， 直 到 异常 指令 到 达 最 后 的 流水 线 阶 段 。 因 为 指令 到 达 
写 回 阶段 的 顺序 与 它们 在 非 流 水 线 化 的 处 理 器 中 执行 的 顺序 相同 ， 所 以 我 们 可 以 保证 第 一 
条 遇 到 异常 的 指令 会 第 一 个 到 达 写 回 阶段 ， 此 时 程序 执行 会 停止 流水线 寄存 器 W 中 的 
状态 码 会 被 记录 为 程序 状态 。 如 果 取 出 了 某 条 指令 ， 过 后 又 取消 了 ， 那 么 所 有 关于 这 条 指 
令 的 异常 状态 信息 也 部 会 被 取消 。 所 有 导致 异常 的 指令 后 面 的 指令 都 不 能 改变 程序 员 可 见 
的 状态 。 携 市 指令 的 异常 状态 以 及 所 有 其 他 信息 通过 流水 线 的 简单 原则 是 处 理 异 常 的 简单 
而 可 徘 的 机 制 。 


4.5.7 PIPE 各 阶段 的 实现 


现在 我 们 已 经 创建 了 PIPE 的 整体 结构 ，PIPE 是 我 们 使 用 了 转发 技术 的 流水 线 化 的 
Y86-64 处 理 需 。 它 使 用 了 一 组 与 前 面 顺 序 设 计 相 同 的 硬件 单元 ， 另 外 增加 了 一 些 流水 线 
寄存 希 、 一 些 重 新 配置 了 的 逻辑 块 ， 以 及 增加 的 流水 线 控制 逻辑 。 在 本 节 中 ， 我 们 将 浏览 
各 个 逻辑 块 的 设计 ， 而 将 流水 线 控制 逻辑 的 设计 放 到 下 一 节 中 介绍 。 许 多 逻辑 块 与 SEQ 
和 SEQ 十 中 相应 部 件 完全 相同 ， 除 了 我 们 必须 从 来 自 不 同 流水 线 寄存 器 (用 大 写 的 流水 线 
寄存 器 的 名 字 作 为 前 缀 ) 或 来 自 各 个 阶段 计算 (用 小 写 的 阶段 名 字 的 第 一 个 字母 作为 前 缀 ) 
的 信号 中 选择 适当 的 值 。 

作为 一 个 示例 ， 比 较 一 下 SEQ 中 产生 srca 信和 号 的 逻辑 的 HCL 代码 与 PIPE 中 相应 
的 代码 ; 

# Code from SEQ 


word srcA = [ 
icode in { IRRMOVQ, IRMMOVQ, IOPQ, IPUSHQ } : rA; 
icode in { IPOPQ, IRET } : RRSP; 
1 : RNONE; # Don't need register 


# Code from PIPE 


word d_srcA = [ 
D_icode in { IRRMOVQ, IRMMOVQ, IOPQ, IPUSHQ } : D_rA; 
D_icode in { IPOPQ, IRET } : RRSP; 
1 : RNONE; # Don't need register 
ss 
它们 的 不 同 之 处 只 在 于 PIPE 信号 都 加 上 了 前 缀 : “D ”表示 源 值 ， 以 表明 信号 是 来 
自流 水 线 寄存 器 D， 而 “qd ”表示 结果 值 ， 以 表明 它 是 在 译 码 阶段 中 产生 的 。 为 了 避免 重 
复 ， 我 们 在 此 就 不 列 出 那些 与 SEQ 中 代码 只 有 名 字 前 缀 不同 的 块 的 HCL 代码。 网 络 旁 注 
ARCH:HCL 中 列 出 了 完整 的 PIPE 的 HCL 代码 。 
1，PC 选择 和 取 指 阶段 
图 4-57 提供 了 PIPE 取 指 阶段 逻辑 的 一 个 详细 描述 。 像 前 面 讨论 过 的 那样 ， 这 个 阶段 
必须 选择 程序 计数 需 的 当前 值 ， 并且 预测 下 一 个 PC 值 。 用 于 从 内 存 中 读 取 指 令 和 抽取 不 
同 指令 字段 的 硬件 单元 与 SEQ 中 考虑 的 那些 一 样 ( 参 见 4. 3. 4 节 中 的 取 指 阶段 )。 
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图 4-57 PIPE 的 PC 选择 和 取 指 逻辑 。 在 一 个 周期 的 时 间 限 制 肉 ， 处 理 器 只 能 预测 下 一 条 指令 的 地 址 


PC 选择 逻辑 从 三 个 程序 计数 需 源 中 进行 选择 。 当 一 条 预测 错误 的 分 支 进 信访 存 阶段 
时 ,会 从 流水 线 寄存 器 M( 信 号 M_ valaA) 中 读 出 该 指令 valP 的 值 (指明 下 一 条 指令 的 地 
址 )。 当 ret 指令 进入 写 回 阶段 时 ， 会 从 流水 线 寄存 器 W( 信 号 W valM) 中 读 出 返回 地 址 。 
其 他 情况 会 使 用 存放 在 流水 线 寄存 器 FF( 信 号 F_predPC) 中 的 PC 的 预测 值 : 

word f_pec = [ 

# Mispredicted branch. Fetch at incremented PC 
M_icode == TJXX && !M_Cnd : M_valA; 

# Completion of RET instruction 

W_icode == IRET : W_valM; 

# Default: Use predicted value of PC 

Ls EK predPG:; 

] ; 

当 取 出 的 指令 为 函数 调用 或 跳 转 时 ，PC 预测 逻辑 会 选择 valC， 和 否则 就 会 选择 valP: 

word f_predPC = [ 

eode' in, { TJIXX, TCALE 上 : £ :YadlC; 
1 由 WEL: 

了 

标号 为 “Instr valid” “Need regids” 和 “Need valC” 的 逻辑 块 和 SEQ 中 的 一 样 ， 使 
用 了 适当 命名 的 源 信号 。 

同 SEQ 中 不 一 样 ， 我 们 必须 将 指令 状态 的 计算 分 成 两 个 部 分 。 在 取 指 阶段 ， 可 以 测 
试 由 于 指令 地 址 越界 引起 的 内 存 错误 ,还 可 以 发 现 非法 指令 或 halt 指令 。 必 须 推 迟到 访 
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存 阶段 才能 发 现 非法 数据 地 址 。 
证 S 光 练习 题 4.30 写 出 信号 f stat 的 HCL 代码 ， 提 供 取出 的 指令 的 临时 状态 。 

2. 译 码 和 写 回 阶段 

图 4-58 是 PIPE 的 译 码 和 写 回 逻辑 的 详细 说 明 。 标 号 为 “dstE”、“dstM”、“srcA” 
和 “srcB” 的 块 非常 类 似 于 它们 在 SEQ 的 实现 中 的 相应 部 件 。 我 们 观察 到 ， 提 供给 写 端 
口 的 寄存 器 ID 来自 于 写 回 阶段 (信号 W dstE 和 W dstM)， 而 不 是 来 自 于 译 码 阶段 。 这 是 
因为 我 们 希望 进行 写 的 目的 寄存 器 是 由 写 回 阶段 中 的 指令 指定 的 。 





ERTATATSTEE Te 生 


图 4-58 PIPE 的 译 码 和 写 回 阶段 逻辑 。 没 有 指令 既 需 要 valP 又 需要 来 目 寄存 器 端 口 A 中 读 出 的 值 ， 因 此 
对 后 面 的 阶段 来 说 ， 这 两 者 可 以 合并 为 信号 valA。 标 号 为 “Sel 十 Fwd A” 的 块 执行 该 任务 ， 并 实 
现 源 操作 数 vala 的 转发 逻辑 。 标 号 为 “Fwd B” 的 块 实现 源 操作 数 valB 的 转发 逻辑 。 寄 存 硕 写 的 
位 置 是 由 来 自 写 回 阶段 的 dstE 和 dstM 信 号 指定 的 ， 而 不 是 来 自 于 译 码 阶段 ， 因 为 它 要 写 的 是 
当前 正在 写 回 阶段 中 的 指令 的 结果 


这 强 练习 题 4.31 译 码 阶段 中 标号 为 “dstE” 的 块根 据 来 自流 水 线 寄存 器 D 中 取出 的 指 
令 的 各 个 字段 ， 产 生 寄 存 器 文件 下 端口 的 寄存 器 ID。 在 PIPE 的 HCL 描述 中 ， 得 到 
的 信号 命名 为 da dstE。 根 据 SEQ 信号 dstE 的 HCL 描述 ， 写 出 这 个 信号 的 HCL 代 
码 。( 参 考 4.3.4 节 中 的 译 码 阶段 。) 目 前 还 不 用 关心 实现 条 件 传 送 的 逻辑 。 
这 个 阶段 的 复杂 性 主要 是 跟 转 发 逻辑 相关 。 就 像 前 面 提 到 的 那样 ， 标 号 为 “Sel 十 Fwd 
A” 的 块 扮 演 两 个 角色 。 它 为 后 面 的 阶段 将 valP 信号 合并 到 valA 信号 ， 这 样 可 以 减少 流 
水 线 寄存 器 中 状态 的 数量 。 它 还 实现 了 源 操作 数 vala 的 转发 逻辑 。 
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合并 信号 valA 和 valP 的 依据 是 ， 只 有 call 和 跳 转 指令 在 后 面 的 阶段 中 需要 valP 
的 值 ， 而 这 些 指 令 并 不 需要 从 寄存 更 文件 A 端口 中 读 出 的 值 。 这 个 选择 是 由 该 阶段 的 
icode 信号 来 控制 的 。 当 信号 D icode 与 call 或 jxXX 的 指令 代码 相 匹 配 时 ， 这 个 块 就 会 
选择 D valP 作为 它 的 输出 。 

4. 5. 5 节 中 提 到 有 5 个 不 同 的 转发 源 ， 每 个 都 有 一 个 数据 字 和 一 个 目的 寄存 器 ID: 


ALU 输出 
内 存 输 出 


访 存 阶 段 中 对 端口 卫 未 进行 的 写 
写 回 阶段 中 对 端口 M 未 进行 的 写 
写 回 阶段 中 对 端口 下 未 进行 的 写 





如 果 不 满足 任何 转发 条 件 ， 这 个 块 就 应 该 选择 da_rvala 作为 它 的 输出 ， 也 就 是 从 寄 
存 器 端口 A 中 读 出 的 值 。 
综 上 所 述 ， 我 们 得 到 以 下 流水 线 寄存 器 下 的 vala 新 值 的 HCL 描述 : 


word d_valA = [ 
D_icode in { ICALL, IJXX } : D_valP: # Use incremented PC 


d_SrcA == e_dstE : e_ValE; # Forward valE from execute 
d_srcA == M_dstM : m_valM; # Forward valM from memory 
d_srchA == M_dstE : M valk.; # Forward ValE from memory 
d_srcA == W_dstM : W_valM; # Forward valM from write back 
d_srcA == W_dstE : W_ValE， # Forward ValE from write back 


1 : d_rvalA; # Use value read from register file 

| 
上 述 HCL 代码 中 赋予 这 5 个 转发 源 的 优先 级 是 非常 重要 的 。 这 种 优先 级 是 由 HCL 代码 
中 检测 5 个 目的 寄存 融 ID 的 顺序 来 确定 的 。 如 果 选 择 了 其 他 任何 顺序 ， 对 某 些 程序 来 说 ， 
流水 线束 会 出 错 。 图 4-59 给 出 了 一 个 程序 示例 ， 要 求 对 执行 和 访 存 阶段 中 的 转发 源 设置 正确 
的 优先 级 。 在 这 个 程序 中 ， 前 两 条 指令 写 寄 存 器 $rdx， 而 第 三 条 指令 用 这 个 寄存 器 作为 它 的 
源 操作 数 。 当 指令 rrmovq 在 周期 4 到 达 译 码 阶段 时 ， 转 发 逻辑 必须 在 两 个 都 以 该 源 寄 存 器 
为 目的 的 值 中 选择 一 个 。 它 应 该 选择 哪 一 个 呢 ? 为 了 设 定 优先 级 ， 我 们 必须 考虑 当 一 次 执行 
一 条 指令 时 ， 机 器 语言 程序 的 行为 。 第 一 条 irmovq 指令 会 将 寄存 器 $rdx 设 为 10， 第 二 条 
irmovq 指令 会 将 之 设 为 3， 然后 rrmovq 指令 会 从 srdx 中 读 出 3。 为 了 模拟 这 种 行为 ， 流 水 
线 化 的 实现 应 该 总 是 给 处 于 最 早 流水 线 阶 段 中 的 转发 源 以 较 高 的 优先 级 ， 因 为 它 保 持 着 程序 
序列 中 设置 该 寄存 天 的 最 近 的 指令 。 因 此 ， 上 述 HCL 代码 中 的 逻辑 首先 会 检测 执行 阶段 中 
的 转发 源 ， 然 后 是 访 存 阶段 ， 最 后 才 是 写 回 阶段 。 只 有 指令 popq %rsp 会 关心 在 访 存 或 写 回 
阶段 中 的 两 个 源 之 间 的 转发 优先 级 ， 因 为 只 有 这 条 指令 能 同时 写 两 个 寄存 器 。 
有 练习 题 4. 32 假设 da valR 的 HCL 代码 中 第 三 和 第 四 种 情况 (来 自 访 存 阶 段 的 两 个 转 

发 源 ) 的 顺序 是 反 过 来 的 。 请 描述 下 列 程序 中 rrmovaq 指令 (第 5 行 ) 造 成 的 行为 : 
irmovg $5, hrdx 
irmovd $0Ox100,%rsp 
rmmovq %rdx,0(%rsp) 


popq hrsp 
rrmovgd hrsp,hrax 


tm NN 一 
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# prog8 

Ox000: irmovg $10,%rdx 
Ox00a: irmovg $3,%rdx 
Ox014: rrmovg hrdx,hrax 
Ox016: halt 


M_dstE = /hrdx 

M valE = 10 
E_dstE = %rdx 
e_VvalE 4—0+3=3 


valA +—e_valE =3 





图 4-59 转发 优先 级 的 说 明 。 在 周期 4 中 ,srdx 的 值 既 可 以 从 执行 阶段 也 可 以 从 访 存 阶段 得 到 。 
转发 逻辑 应 该 选择 执行 阶段 中 的 值 ， 因 为 它 代表 最 近 产 生 的 该 寄存 恬 的 值 


练习 题 4.33 假设 avalR 的 HCL 代码 中 第 五 和 第 六 种 情况 (来 自 写 回 阶段 的 两 个 转 
发 源 ) 的 顺序 是 反 过 来 的 。 写 出 一 个 会 运行 错误 的 Y86-64 程序 。 请 描述 错误 是 如 何 发 
生 的 ， 以 及 它 对 程序 行为 的 影响 。 

练习 题 4.34 ”根据 提供 到 流水 线 寄 存 器 下 的 源 操 作 数 valB 的 值 ， 写 出 信号 d_valB 
的 HCL 代码 。 

写 回 阶段 的 一 小 部 分 是 保持 不 变 的 。 如 图 4-52 所 示 ， 整 个 处 理 器 的 状态 Stat 是 一 

个 块根 据 流 水 线 寄存 器 W 中 的 状态 值 计 算出 来 的 。 回 想 一 下 4. 1.1 节 ， 状 态 码 应 该 指 

明 是 正常 操作 (CRAOK) ， 还 是 三 种 异常 条 件 中 的 一 种 。 由 于 流水 线 寄存 硕 W 保存 着 最 近 完 

成 的 指令 的 状态 ， 很 自然 地 要 用 这 个 值 来 表示 整个 处 理 器 状态 。 唯 一 要 考虑 的 特殊 情况 

是 当 写 回 阶 段 有 气泡 时 。 这 是 正常 操作 的 一 部 分 ， 因 此 对 于 这 种 情况 ， 我们 也 希望 状态 

码 是 AOK: 
word Stat = [ 

W_stat == SBUB : SAOK; 
1 : W_stat; 
3 
3. 执行 阶段 
图 4-60 展现 的 是 PIPE 执行 阶段 的 逻辑 。 这 些 硬件 单元 和 逻辑 块 同 SEQ 中 的 相同 ， 

使 用 的 信号 做 适当 的 重 命名 。 我 们 可 以 看 到 信号 e valE 和 e dstE 作为 转发 源 ， 指 向 译 

码 阶 段 。 一 个 区 别 是 标号 为 “Set CC” 的 逻辑 以 信号 m_ stat 和 W_ stat 作为 输入 ， 这 个 

逻辑 决定 了 是 否 要 更 新 条 件 码 。 这 些 信号 被 用 来 检查 一 条 导致 异常 的 指令 正在 通过 后 面 的 

流水 线 阶段 的 情况 ， 因 此 ， 任 何 对 条 件 码 的 更 新 都 会 被 禁止 。 这 部 分 设计 在 4. 5.8 这 中 


讨论 。 
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图 4-60 PIPE 的 执行 阶段 逻辑 。 这 一 部 分 的 设计 与 SEQ 实现 中 的 逻辑 非常 相似 


证 弹 练习 题 4.35 qd valRA 的 HCL 代码 中 的 第 二 种 情况 使 用 了 信号 e dstE， 来 判断 是 否 

要 选择 ALU 的 输出 e valE 作为 转发 源 。 假 设 我 们 用 E dstE， 也 就 是 流水 线 寄存 器 

E 中 的 目的 寄存 器 ID， 来 作为 这 个 选择 。 写 出 一 个 采用 这 个 修改 过 的 转发 逻辑 就 会 产 

生 错 误 结 果 的 Y86-64 程序 。 

4. 访 存 阶段 

图 4-61 是 PIPE 的 访 存 阶段 逻辑 。 将 这 个 逻辑 与 SEQ 的 访 存 阶段 (图 4-30) 相 比较 ， 
我 们 看 到 ， 正 如 前 面 提 到 的 那样 ，PIPE 中 没有 SEQ 中 标号 为 “Data” 的 块 。 这 个 块 是 用 
来 在 数据 源 valP( 对 call 指令 来 说 ) 和 vala 中 进行 选择 的 ， 但 是 这 个 选择 现在 由 译 码 阶 
段 中 标号 为 “Sel 十 Fwd A” 的 块 来 执行 。 这 个 阶段 中 的 其 他 块 都 和 SEQ 中 相应 的 部 件 相 
同 ,， 采 用 的 信号 做 适当 的 重 命名 。 在 图 中 ， 你 还 可 以 看 到 许多 流水 线 寄存 器 M 和 W 中 的 
值 作为 转发 和 流水 线 控制 逻辑 的 一 部 分 ， 提 供给 电路 中 其 他 部 分 。 


oseoosserteorser bin i ss 
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图 4-61 PIPE 的 访 存 阶段 逻辑 。 许 多 从 流水 线 寄存 此 M 和 W 来 的 信号 被 传递 到 较 早 的 阶段 ， 
以 提供 写 回 的 结果 、 指 令 地 址 以 及 转发 的 结果 
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人 弄 练习 题 4.36 在 这 个 阶段 中 ， 通 过 检查 数据 内 存 的 非法 地 址 情况 ， 我 们 能 够 完成 状 
态 码 Stat 的 计算 。 写 出 信号 m_ stat 的 HCL 代码 。 


4.5.8 ”流水 线 控制 逻辑 


现在 准备 创建 流水 线 控制 逻辑 ， 完 成 我 们 的 PIPE 设计 。 这 个 逻辑 必须 处 理 下 面 4 种 
控制 情况 ， 这 些 情况 是 其 他 机 制 ( 例 如 数据 转发 和 分 文 预 测 ) 不 能 处 理 的 ; 

加 载 / 使 用 冒险 : 在 一 条 从 内 存 中 读 出 一 个 值 的 指令 和 一 条 使 用 该 值 的 指令 之 间 ， 流 
水 线 必 须 暂 停 一 个 周期 。 

处 理 ret: 流水 线 必须 暂停 直到 ret 指令 到 达 写 回 阶 段 。 

预测 错误 的 分 支 : 在 分 文 逻辑 发 现 不 应 该 选择 分 文 之 前 ， 分 文 目标 处 的 几 条 指令 已 经 
进入 流水 线 了 。 必 须 取 消 这 些 指令 ， 并 从 跳 转 指令 后 面 的 那 条 指令 开始 取 指 。 

异常 : 当 一 条 指令 导致 异常 ， 我们 想 要 禁止 后 面 的 指令 更 新 程序 员 可 见 的 状态 ,并且 
在 异常 指令 到 达 写 回 阶 段 时 ， 停 止 执 行 。 

我 们 先 浏 览 每 种 情况 所 期 望 的 行为 ， 然 后 再 设计 处 理 这 些 情 况 的 控制 逻辑 。 

1. 特殊 探 制 情况 所 期 望 的 处 理 

在 4.5.5 节 中 ， 我们 已 经 描述 了 对 加 载 /使 用 冒险 所 期 望 的 流水 线 操作 ， 如 图 4-54 所 
示 。 只 有 mrmovq 和 popgq 指令 会 从 内 存 中 读数 据 。 当 这 两 条 指令 中 的 任 一 条 处 于 执行 阶 
段 ， 并 且 需 要 该 目的 寄存 占 的 指令 正 处 在 译 码 阶段 时 ， 我 们 要 将 第 二 条 指令 阻塞 在 译 码 阶 
段 ， 并 在 下 一 个 周期 往 执 行 阶 段 中 插入 一 个 气泡 。 此 后 ， 转 发 逻辑 会 解决 这 个 数据 冒险 。 
可 以 将 流水 线 寄存 器 D 保持 为 固定 状态 ， 从 而 将 一 个 指令 阻塞 在 译 码 阶段 。 这 样 做 还 可 以 
保证 流水 线 寄存 器 下 保持 为 固定 状态 ， 由 此 下 一 条 指令 会 被 再 取 一 次 。 总 之 ， 实 现 这 个 流 
水 线 流 需要 发 现 冒 险 的 情况 ， 保 持 流 水 线 寄存 各 PE 和 D 固 定 不 变 ， 并 且 在 执行 阶段 中 插入 
气泡 。 

对 ret 指令 的 处 理 ， 我 们 已 经 在 4.5.5 节 中 摘 述 了 所 需 的 流水 线 操作 。 流 水 线 要 停顿 
3 个 时 钟 周期 ， 直 到 ret 指令 经 过 访 存 阶段 ， 读 出 返回 地 址 。 通 过 图 4-55 中 下 面 程序 的 处 
理 的 简化 流水 线 图 ， 说 明了 这 种 情况 : 


Ox000: irmovg stack,hrsp # Initialize stack pointer 
Ox00a: call proc # Procedure call 

Ox013: irmovg $10,%rdx # Return point 

Ox01d: halt 

Ox020: .pos Ox20 

Ox020: proc: # proc: 

Ox020: ret # Return immediately 
Ox021: rrmovg %rdx,hrbx # Not executed 

Ox030: .pos Ox30 

Ox030: stack: # stack: Stack pointer 


图 4-62 是 示例 程序 中 ret 指令 的 实际 处 理 过 程 。 在 此 可 以 看 到 ， 没有 办 法 在 流水 线 
的 取 指 阶段 中 插入 气泡 。 每 个 周期 ， 取 指 阶段 从 指令 内 存 中 读 出 一 条 指令 。 看 看 4. 5.7 节 
中 实现 PC 预测 逻辑 的 HCL 代码 ， 我 们 可 以 看 到 ， 对 ret 指令 来 说 ，PC 的 新 值 被 预测 成 
valP， 也 就 是 下 一 条 指令 的 地 址 。 在 我 们 的 示例 程序 中 ， 这 个 地 址 会 是 0x021， 即 ret 后 
面 rrmovq 指令 的 地 址 。 对 这 个 例子 来 说 ， 这 种 预测 是 不 对 的 ， 即 使 对 大 部 分 情况 来 说 ， 
也 是 不 对 的 ， 但 是 在 设计 中 ， 我 们 并 不 试图 正确 预测 返回 地 址 。 取 指 阶 段 会 暂停 3 个 时 钟 
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周期 ， 导 致 取出 rrmovq 指令 ， 但 是 在 译 码 阶段 就 被 替换 成 了 气泡 。 这 个 过 程 在 图 4-62 中 的 
表示 为 ，3 个 取 指 用 箭头 指向 下 面 的 气泡 ， 气 泡 会 经 过 剩 下 的 流水 线 阶 段 。 最 后 ， 在 周期 
7 取出 irmovq 指令 。 比 较 图 4-62 和 图 4-55， 可 以 看 到 ， 我 们 的 实现 达到 了 期 望 的 效果 ， 
只 不 过 连续 3 个 周期 取出 了 不 正确 的 指令 。 


# prog6 
Ox000: irmovq Stack,%hrsp 
Ox00a: call proc 
Ox020; ret 
Ox021: rrmovg hrdx,hrbx # Not executed 
bubble 
: Irmovg hrdx,hrbx # Not executed 
bubble 
: rrmovg hrdx,%rbx # Not executed 


bubble 


irmovg $10,%rdx # Return point 





图 4-62 ”ret 指令 的 详细 处 理 过 程 。 取 指 阶 段 反 复 取 出 ret 指令 后 面 的 rrmovqg 指令 ,但 是 流水 线 控制 
逻辑 在 译 码 阶 段 中 插入 气泡 ， 而 不 是 让 rrmova 指令 继续 下 去 。 由 此 得 到 的 行为 与 图 4-55 所 
示 的 等 价 


当 分 支 预测 错误 发 生 时 ， 我 们 已 经 在 4. 5.5 节 中 描述 了 所 需 的 流水 线 操作 ， 并 用 图 4- 
56 进行 了 说 明 。 当 跳 转 指令 到 达 执 行 阶段 时 就 可 以 检测 到 预测 错误 。 然 后 在 下 一 个 时 钟 
周期 ， 控 制 逻 辑 就 会 在 译 码 和 执行 段 插入 气泡 ， 取 消 两 条 不 正确 的 已 取 指 令 。 在 同一 个 时 
钟 周期 ， 流 水 线 将 正确 的 指令 读 取 到 取 指 阶段 。 

对 于 导致 异常 的 指令 ， 我 们 必须 使 流水 线 化 的 实现 符合 期 望 的 ISA 行为 ， 也 就 是 在 前 
面 所 有 的 指令 结束 前 ， 后面 的 指令 不 能 影响 程序 的 状态 。 一 些 因 素 会 使 得 想 达 到 这 些 效果 
比较 矿 烦 : 1) 异常 在 程序 执行 的 两 个 不 同 阶段 ( 取 指 和 访 存 ) 被 发 现 的 ，2) 程 序 状态 在 三 
个 不 同 阶段 (执行 、 访 存 和 写 回 ) 被 更 新 。 

在 我 们 的 阶段 设计 中 ， 每 个 流水 线 寄存 需 中 会 包含 一 个 状态 码 stat， 随 着 每 条 指令 
经 过 流水 线 阶 段 ， 它 会 记录 指令 的 状态 。 当 异常 发 生 时 ， 我 们 将 这 个 信息 作为 指令 状态 的 
一 部 分 记录 下 来 ， 并 且 继 绥 取 指 、 译 码 和 执行 指令 ， 就 好 像 什 么 都 没有 出 错 似 的 。 当 异常 
指令 到 达 访 存 阶 段 时 ， 我 们 会 采取 措施 防止 后 面 的 指令 修改 程序 员 可 见 的 状态 : 1) 禁止 
执行 阶段 中 的 指令 设置 条 件 码 ，2) 向 内 存 阶段 中 插入 气泡 ， 以 禁止 向 数据 内 存 中 写 入 ， 
3) 当 写 回 阶段 中 有 异常 指令 时 ， 暂 停 写 回 阶 段 ， 因 而 暂停 了 流水 线 。 

图 4-63 中 的 流水 线 图 说 明了 我 们 的 流水 线 控制 如 何 处 理 导致 异常 的 指令 后 面 跟 着 一 条 会 
改变 条 件 码 的 指令 的 情况 。 在 周期 6，pushq 指令 到 达 访 存 阶段 ， 产 生 一 个 内 存 错 误 。 在 同 
一 个 周期 ， 执 行 阶段 中 的 addq 指令 产生 新 的 条 件 码 的 值 。 当 访 存 或 者 写 回 阶段 中 有 异常 指 
令 时 (通过 检查 信号 m stat 和 W stat， 然 后 将 信号 set_cc 设置 为 0) ， 禁 止 设置 条 件 码 。 在 
图 4-63 的 例子 中 ， 我 们 还 可 以 看 到 既 疝 访 存 阶段 插入 了 气泡 ， 也 在 写 回 阶段 暂停 了 有 异 篆 指 
令 一 一 pushq 指令 在 写 回 阶段 保持 暂停 ， 后 面 的 指令 都 没有 通过 执行 阶段 。 

对 状态 信号 流水 线 化 ， 控 制 条 件 码 的 设置 ， 以 及 控制 流水 线 阶段 一 一 将 这 些 结 合 起 
来 ， 我们 实现 了 对 异常 的 期 望 的 行为 : 异常 指令 之 前 的 指令 都 完成 了 ， 而 后 面 的 指令 对 程 
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序 员 可 见 的 状态 都 没有 影响 。 


# Progl0 


Ox000: irmovg $1,%rax 


0x00c: pushq hrax 
0x00e: addq hrax,hrax 
Ox010: irmovg $2,%hrax 


le 
mem _error = 1 一 - 到 3 


New CC = 000 的 而 re 


图 4-63 处理 非法 内 存 引 用 异常 。 在 周期 6，pushq 指令 的 非法 内 存 引 用 导致 禁止 更 新 条 件 码 。 流 水 
线 开始 往 访 存 阶段 插入 气泡 ， 并 在 写 回 阶段 暂停 异常 指令 


2. 发 现 特殊 控制 条 件 

图 4-64 总 结 了 需要 特殊 流水 线 控制 的 条 件 。 它 给 出 的 表达 式 描述 了 在 哪些 条 件 下 会 
出 现 这 三 种 特殊 情况 。 一 些 简 单 的 组 合 逻 辑 块 实现 了 这 些 表达 式 ， 为 了 在 时 钟 上 升 开始 下 
一 个 周期 时 控制 流水 线 寄存 器 的 活动 ， 这 些 块 必须 在 时 钟 周 期 结束 之 前 产生 出 结果 。 在 一 
个 时 钟 周期 内 ， 流 水 线 寄存 融 D、E 和 M 分 别 保持 着 处 于 译 码 、 执 行 和 访 存 阶段 中 的 指令 
的 状态 。 在 到 达 时 钟 周 期 末尾 时 ， 信 号 9_srcA 和 ad srcB 会 被 设置 为 译 码 阶段 中 指令 的 
源 操作 数 的 寄存 器 ID。 当 ret 指令 通过 流水 线 时 ， 要 想 发 现 它 ， 只 要 检查 译 码 、 执 行 和 
访 存 阶段 中 指令 的 指令 码 。 发 现 加 载 /使 用 冒险 要 检查 执行 阶段 中 的 指令 类 型 (mrmova 或 
popq)， 并 把 它 的 目的 寄存 胡 与 译 码 阶段 中 指令 的 源 寄存 右 相 比较 。 当 跳 转 指令 在 执行 阶 
段 时 ， 流 水 线 控制 逻辑 应 该 能 发 现 预测 错误 的 分 支 ， 这 样 当 指令 进入 访 存 阶 段 时 ， 它 就 能 
设置 从 错误 预测 中 恢复 所 需要 的 条 件 。 当 跳 转 指令 处 于 执行 阶段 时 ， 信 和 号 e_cnd 指明 是 否 
要 选择 分 文 。 通 过 检查 访 存 和 写 回 阶段 中 的 指令 状态 值 ， 就 能 发 现 异常 指令 。 对 于 访 存 阶 
段 ， 我们 使 用 在 这 个 阶段 中 计算 出 来 的 信号 m_stat， 而 不 是 使 用 流水 线 寄 存 嚣 的 M 
stat。 这 个 内 部 信号 包含 着 可 能 的 数据 内 存 地 址 错误 。 





处 理 ret IRETE {D_icode,E icode,M_ icode} 
加 载 /使 用 冒险 E icode€ {IMRMOVL,IPOPL}) & &E dstME {d srcA,d srcB) 


预测 错误 的 分 支 E icode==|JXX& &!1 e Cnd 
异常 m_stat€ {SADR, SINS, SHLT} | | W_stat€ {SADR, SINS, SHLT} 





图 4-64 流水 线 控制 逻辑 的 检查 条 件 。 四 种 不 同 的 条 件 要 求 改变 流水 线 ， 
暂停 流水 线 或 者 取消 已 经 部 分 执行 的 指令 


3. 流水 线 控制 机 制 
图 4-65 是 一 些 低级 机 制 ， 它 们 使 得 流水 线 控制 逻辑 能 将 指令 阻塞 在 流水 线 寄存 器 中 ， 
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或 是 往 流 水 线 中 插入 一 个 气泡 。 这 些 机 制 包 括 对 4. 2. 5 节 中 描述 的 基本 时 钟 寄 存 器 的 小 扩 
展 。 假 设 每 个 流水 线 寄存 器 有 两 个 控制 输入 : 暂停 (stall) 和 气泡 (bubble)。 这 些 信号 的 设 
置 决定 了 当时 钟 上 升 时 该 如 何 更 新 流水 线 寄存 器 。 在 正常 操作 下 (图 4-65a) ， 这 两 个 输入 
都 设 为 0， 使 得 寄存 器 加 载 它 的 输入 作为 新 的 状态 。 当 暂停 信号 设 为 1 时 (图 4-65b)， 禁 止 
更 新 状态 。 相 反 ， 寄 存 需 会 保持 它 以 前 的 状态 。 这 使 得 它 可 以 将 指令 阻塞 在 某 个 流水 线 阶 
段 中 。 当 气泡 信号 设置 为 1 时 (图 465c)， 寄 存 器 状态 会 设置 成 某 个 固定 的 复位 配置 (reset 
configuration) ， 得 到 一 个 等 效 于 nop 指令 的 状态 。 一 个 流水 线 寄 存 器 的 复位 配置 的 0、1 
模式 是 由 流水 线 寄存 器 中 字段 的 集合 决定 的 。 例 如 ， 要 往 流 水 线 寄 存 器 D 中 插入 一 个 气 
泡 ， 我 们 要 将 icode 字段 设置 为 常数 值 INOP( 图 4-26)。 要 往 流水 线 寄 存 器 正中 插入 一 个 
气泡 ， 我们 要 将 icode 字段 设 为 INOP， 并 将 dstE、dstM、srcA 和 srcB 字段 设 为 常数 
RNONE。 确 定 复 位 配置 是 硬件 设计 师 在 设计 流水 线 寄存 器 时 的 任务 之 一 。 在 此 我 们 不 讨论 
细节 。 我 们 会 将 气泡 和 暂停 信号 都 设 为 1 看 成 是 出 错 。 





状态 =x 状态 =y 
输入 = 之 输出 = 
=y 输出 =x Ra 出 =y 
暂停 气泡 
-0 -0 
a) 正常 
状态 =x 状态 =x 
输入 =y 输出 =x 输出 =x 
一 时 钟 上 升 沾 。 = 站 
暂停 气泡 
-0 | 
b) 暂停 
状态 =nop 
输出 = 
= 时 钟 上 升 沿 。 mp " 
| EU 
b) 气泡 


图 4-65 附加 的 流水 线 寄存 器 操作 。a) 在 正常 条 件 下 ， 当 时 钟 上 升 时 ， 寄 存 器 的 状态 和 输出 被 设置 
成 输入 的 值 ; b) 当 运行 在 暂停 模式 中 时 ， 状 态 保 持 为 先前 的 值 不 变 ; ec) 当 运 行 在 气泡 模式 
中 时 ， 会 用 nop 操作 的 状态 覆盖 当前 状态 
图 4-66 中 的 表 给 出 了 各 个 流水 线 寄存 器 在 三 种 特殊 情况 下 应 该 采取 的 行动 。 对 每 种 
情况 的 处 理 都 是 对 流水 线 寄存 器 正常 、 暂 停 和 气泡 操作 的 某 个 组 合 。 在 时 序 方面 ， 流 水 线 
寄存 器 的 暂停 和 气泡 控制 信号 是 由 组 合 逻辑 块 产生 的 。 当 时 钟 上 升 时 ， 这 些 值 必须 是 合法 
的 ， 使 得 当下 一 个 时 钟 周 期 开始 时 ， 每 个 流水 线 寄存 器 要 么 加 载 ， 要 么 暂停 ， 要 么 产生 气 


318 ”第 一 部 分 程序 结构 和 执行 


泡 。 有 了 这 个 对 流水 线 寄 存 器 设计 的 小 扩展 ， 我 们 就 能 用 组 合 逻 辑 、 时 钟 寄存 硕 和 随机 访 
间 存 储 器 这 样 的 基本 构建 块 ， 来 实现 一 个 完整 的 、 包 括 所 有 控制 的 流水 线 。 


处 理 ret 


加 载 / 使 用 冒险 
预测 错误 的 分 支 





图 4-66 流水线 控 制 逻辑 的 动作 。 不 同 的 条 件 需 要 改变 流水 线 流 ， 或 者 会 暂停 流水 线 ， 
或 者 会 取消 部 分 已 执行 的 指令 

4. 控制 条 件 的 组 合 

到 目前 为 止 ， 在 我 们 对 特殊 流水 线 控制 条 件 的 讨论 中 ,假设 在 任意 一 个 时 钟 周 期 内 ， 
最 多 只 能 出 现 一 个 特殊 情况 。 在 设计 系统 时 ， 一 个 常见 的 缺陷 是 不 能 处 理 同时 出 现 多 个 特 
殊 情 况 的 情形 。 现 在 来 分 析 这 些 可 能 性 。 我 们 不 需要 担心 多 个 程序 异常 的 组 合 情 况 ， 因 为 
已 经 很 小 心地 设计 了 异常 处 理 机 制 ， 它 能 够 考虑 流水 线 中 其 他 指令 的 情况 。 图 4-67 画 出 
了 导致 其 他 三 种 特殊 控制 条 件 的 流水 线 状态 。 图 中 所 示 的 是 译 码 、 执 行 和 访 存 阶段 的 块 。 
暗色 的 方 框 代表 要 出 现 这 种 条 件 必 须要 满足 的 特别 限制 。 加 载 / 使 用 冒险 要 求 执 行 阶 段 中 
的 指令 将 一 个 值 从 内 存 读 到 寄存 器 中 ， 同 时 译 码 阶段 中 的 指令 要 以 该 寄存 带 作 为 源 操作 
数 。 预 测 错误 的 分 支 要 求 执行 阶段 中 的 指令 是 一 个 跳 转 指令 。 对 ret 来 说 有 三 种 可 能 的 情 





况 指令 可 以 处 在 译 码 、 执 行 或 访 存 阶段 。 当 ret 指令 通过 流水 线 时 ， 前 面 的 流水 线 阶 
段 都 是 气泡 。 
加 载 /使 用 预测 错误 ret 1 ret 2 ret 3 
MIw | wv In |™M ret 
E| NMR | EL x | E |E| ze | ES 
D| 使 用 | D| | DL ret |pDL 气 泡 |DL 气泡 
1 组 合 A 1 
组 合 B 


图 4-67 特殊 控制 条 件 的 流水 线 状态 。 图 中 标明 的 两 对 情况 可 能 同时 出 现 


从 这 些 图 中 我 们 可 以 看 出 ， 大 多 数控 制 条 件 是 互 斥 的 。 例 如 ， 不 可 能 同时 既 有 加 载 / 
使 用 冒险 又 有 预测 错误 的 分 支 ， 因 为 加 载 / 使 用 冒险 要 求 执行 阶段 中 是 加 载 指令 (mrmovda 
或 popa) ， 而 预测 错误 的 分 支 要 求 执行 阶段 中 是 一 条 跳 转 指令 。 类 似 地 ， 第 二 个 和 第 三 个 
ret 组 合 也 不 可 能 与 加 载 / 使 用 冒险 或 预测 错误 的 分 支 同 时 出 现 。 只 有 用 箭头 标明 的 两 种 
组 合 可 能 同时 出 现 。 

组 合 A 中 执行 阶段 中 有 一 条 不 选择 分 支 的 跳 转 指令 ， 而 译 码 阶段 中 有 一 条 ret 指令 。 
出 现 这 种 组 合 要 求 ret 位 于 不 选择 分 支 的 目标 处 。 流 水 线 控制 逻辑 应 该 发 现 分 文 预 测 错 
误 ， 因 此 要 取消 ret 指令 。 

是 纪 练习 题 4.37 写 一 个 Y86-64 汇编 语言 程序 ， 它 能 导致 出 现 组 合 A 的 情况 ， 并 判断 控 

制 逻 辑 是 否 处 理 正确 。 

合并 组 合 A 条 件 的 控制 动作 (图 4-66)， 我 们 得 到 以 下 流水 线 控制 动作 (假设 气泡 或 暂 
停 会 覆盖 正常 的 情况 ): 
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流水 线 寄存 器 


预测 错误 的 分 支 
组 合 


也 就 是 说 ， 组 合 情 况 A 的 处 理 与 预测 错误 的 分 支 相 似 ， 只 不 过 在 取 指 阶段 是 暂停 。 幸 
运 的 是 ， 在 下 一 个 周期 ，PC 选择 逻辑 会 选择 跳 转 后 面 那 条 指令 的 地 址 ， 而 不 是 预测 的 程 
序 计 数 需 值 ， 所 以 流水 线 寄存 占 下 发生 了 什么 是 没有 关系 的 。 因 此 我 们 得 出 结论 ， 流 水 线 
能 正确 处 理 这 种 组 合 情 况 。 

组 合 B 包括 一 个 加 载 /使 用 冒险 ， 其 中 加 载 指令 设置 寄存 器 $rsp， 然 后 ret 指令 用 这 
个 寄存 占 作 为 源 操作 数 ， 因 为 它 必须 从 栈 中 弹出 返回 地 址 。 流 水 线 控制 逻辑 应 该 将 ret 指 
令 阻 塞 在 译 码 阶段 。 
攻 汪 练习 题 4.38 写 一 个 Y86-64 汇编 语言 程序 ， 它 能 导致 出 现 组 合 也 的 情况 ， 如 果 流 水 

线 运 行 正 确 ， 以 halt 指令 结束 。 

合并 组 合 B 条 件 的 控制 动作 (图 4-66)， 我 们 得 到 以 下 流水 线 控制 动作 : 





流水 线 麻 存 器 


处 理 ret 


预测 错误 的 分 支 
组 合 


期 望 的 情况 





如 果 同 时 触发 两 组 动作 ， 控 制 逻辑 会 试图 暂停 ret 指令 来 避免 加 载 /使 用 冒险 ， 同 时 
又 会 因为 ret 指令 而 往 译 码 阶段 中 插入 一 个 气泡 。 显 然 ， 我 们 不 希望 流水 线 同时 执行 这 两 
组 动作 。 相 反 ， 我 们 希望 它 只 采取 针对 加 载 /使 用 骨 险 的 动作 。 处 理 ret 指令 的 动作 应 该 
推迟 一 个 周期 。 

这 些 分 析 表 明 组 合 B 需 要 特殊 人 处理 。 实 际 上 ，PIPE 控制 逻辑 原来 的 实现 并 没有 正确 
处 理 这 种 组 合 情 况 。 即 使 设计 已 经 通过 了 许多 模拟 测试 ， 它 还 是 有 细节 问题 ， 只 有 通过 刚 
才 那 样 的 分 析 才 能 发 现 。 当 执行 一 个 含有 组 合 B 的 程序 时 ， 控 制 逻辑 会 将 流水 线 寄存 器 D 
的 气泡 和 暂停 信号 都 置 为 1。 这 个 例子 表明 了 系统 分 析 的 重要 性 。 只 运行 正常 的 程序 是 很 
难 发 现 这 个 问题 的 。 如 果 没 有 发 现 这 个 问题 ， 流 水 线 就 不 能 忠实 地 实现 ISA 的 行为 。 

5. 控制 逻辑 实现 

图 4-68 是 流水 线 控制 逻辑 的 整体 结构 。 根 据 来 自流 水 线 寄存 占 和 流水 线 阶段 的 信和 号， 控制 
逻辑 产生 流水 线 寄 存 器 的 暂停 和 气泡 控制 信号 ， 同 时 也 决定 是 否 要 更 新 条 件 码 寄 存 器 。 我 们 可 
以 将 图 464 的 发 现 条 件 和 图 466 的 动作 结合 起 来 ， 产生 各 个 流水 线 控制 信号 的 HCL 描述 。 

遇 到 加 载 / 使 用 骨 险 或 ret 指令 ， 流 水 线 寄 存 器 下 必须 暂停 : 


bool F_stall = 
# Conditions for a load/use hazard 
E_icode in { IMRMOVQ, IPOPQ } && 
E_dstM in { d_srcA, d_srcB } || 
# Stalling at fetch while ret passes through pipeline 
IRET in { D_icode, E_icode, M icode }; 


' M_icode 
| M_bubble [Ta 
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图 4-68 ”PIPE 流水 线 控制 逻辑 。 这 个 逻辑 覆盖 了 通过 流水 线 的 正常 指令 流 ， 以 处 理 特殊 条 件 ， 
例如 过 程 返 回 、 预 测 错 误 的 分 支 、 加 载 /使 用 冒险 和 程序 异常 


中 练习 题 4.39 写 出 PIPE 实现 中 信号 D stall 的 HCL 代码 。 
遇 到 预测 错误 的 分 文 或 ret 指令 ， 流水线 寄存 如 D 必须 设置 为 气泡 。 不过， 正如 前 
面 一 节 中 的 分 析 所 示 ， 当 遇 到 加 载 / 使 用 冒险 和 ret 指令 组 合 时 ， 不 应 该 插入 气泡 : 
bool D_bubble = 
# Mispredicted branch 
(E_icode == IJXX && le_Cnd) || 
# Stalling at fetch while ret passes through pipeline 
# but not condition for a load/use hazard 
1 (E_icode in { IMRMOVQ, IPOPQ } && E_dstM in { d_srcA, d_srcB }) && 
IRET in { D_icode, E_icode, M_icode }; 
攻 光 练习 题 4.40” 写 出 PIPE 实现 中 信号 EE bubble 的 HCL 代码 。 
3 练习 题 4. 41 写 出 PIPE 实现 中 信和 号 set cc 的 HCL 代码。 该 信和 号 只 有 对 OPq 指令 
才 出 现 ， 应 该 考虑 程序 异常 的 影响 。 
证 纪 练习 题 4. 42” 写 出 PIPE 实现 中 信号 M bubble 和 W stall 的 HCL 代码。 后 一 个 信 
号 需要 修改 图 4-64 中 列 出 的 异常 条 件 。 
现在 我 们 讲 完 了 所 有 的 特殊 流水 线 控制 信号 的 值 。 存 PIPE 的 完整 HCL 代码 中 ， 所 
有 其 他 的 流水 线 控制 信号 都 设 为 0。 


EE 测试 设计 

正如 我 们 看 到 的 ， 即 使 是 对 于 一 个 很 简单 的 微 处 理 器 ， 设 计 中 还 是 有 很 多 地 方 会 出 
现 问 题 。 使 用 流水 线 ， 处 于 不 同 流水 线 阶段 的 指令 之 间 有 许多 不 易 察 觉 的 交互 。 我 们 看 
到 一 些 设计 上 的 挑战 来 自 于 不 常见 的 指令 (例如 弹出 值 到 栈 指 针 )， 或 是 不 常见 的 指令 组 
合 ( 例 如 不 选择 分 支 的 跳 转 指令 后 面 跟 一 条 ret 指令 )。 还 看 到 异常 处 理 增加 了 一 类 全 新 
的 可 能 的 流水 线 行为 。 那 么 怎样 确定 我 们 的 设计 是 正确 的 呢 ? 对 于 硬件 制造 者 来 说 ， 这 
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是 主要 关心 的 问题 ， 因 为 他 们 不 能 简单 地 报告 一 个 错误 ， 让 用 户 通过 Internet 下 载 代 码 
补丁 。 即 使 是 简单 的 逻辑 设计 错误 都 可 能 有 很 严重 的 后 果 ， 特 别 是 随 着 微 处 理 器 越 来 越 
多 地 用 于 对 我 们 的 生命 和 健康 至 关 重 要 的 系统 的 运行 中 ， 例 如 汽车 防 抱 死 制 动 系统 、 心 
脏 起 捕 器 以 及 航空 控制 系统 。 

简单 地 模拟 设计 ， 运 行 一 些 “ 典 型 的 ”程序 ， 不 足以 用 来 测试 一 个 系统 。 相 反 ， 全 
面 的 测试 需要 设计 一 些 方法 ， 系 统 地 产生 许多 测试 尽 可 能 多 地 使 用 不 同 指令 和 指令 组 
合 。 在 创建 Y86-64 处 理 器 的 过 程 中 ， 我 们 还 设计 了 很 多 测试 脚本 ， 每 个 脚本 都 产生 出 
很 多 不 同 的 测试 ， 运 行 处 理 器 模拟 ， 并 且 上 比较 得 到 的 寄存 器 和 内 存 值 和 我 们 YIS 指令 集 
模拟 器 产生 的 值 。 以 下 是 这 些 脚 本 的 简要 介绍 : 
optest: 运行 49 个 不 同 的 Y86-64 指令 测试 ， 具 有 不 同 的 源 和 目的 寄存 器 。 
jtest: 运行 64 个 不 同 的 跳 转 和 兄 数 调用 指令 的 测试 ， 具 有 不 同 的 是 否 选 择 分 支 的 组 合 。 
cmtest: 运行 28 个 不 同 的 条 件 传送 指令 的 测试 ， 有 具有 不 同 的 控制 组 合 。 
htest: 运行 600 个 不 同 的 数据 冒险 可 能 性 的 测试 ， 具 有 不 同 的 源 和 目的 的 指令 的 组 
在 这 些 指令 对 之 间 有 不 同 数量 的 nop 指令 。 
ctest : 测试 22 个 不 同 的 控制 组 合 ， 基 于 类 似 4.5.8 节 中 我 们 做 的 那样 的 分 析 。 
etest: 测试 12 种 不 同 的 导致 异常 的 指令 和 跟 在 后 面 可 能 改变 程序 员 可 见 状态 的 指令 组 合 。 
这 种 测试 方法 的 关键 思想 是 我 们 想 要 尽量 的 系统 化 ， 生 成 的 测试 会 创建 出 不 同 的 可 
能 导致 流水 线 错误 的 条 件 。 


EE3 形式 化 地 验证 我 们 的 设计 

即使 一 个 设计 通过 了 广泛 的 测试 ， 我 们 也 不 能 保证 对 于 所 有 可 能 的 程序 ， 它 都 能 正 
确 运 行 。 即 使 只 考虑 由 短 的 代码 段 组 成 的 测试 ， 可 以 测试 的 可 能 的 程序 的 数量 也 大 得 难 
以 想象 。 不 过 ， 形 式 化 验证 (formal verification) 的 新 方法 能 够 保证 有 工具 能 够 严格 地 考 
虑 一 个 系统 所 有 可 能 的 行为 ， 并 确定 是 否 有 设计 错误 。 

我 们 能 够 形式 化 验证 Y86-64 处 理 器 较 旱 的 一 个 版 本 [13]。 建 立 一 个 框架 ， 比 较 流 
水 线 化 的 设计 PIPE 和 非 流 水 线 化 的 版 本 SEQ。 也 就 是 ， 它 能 够 证 明 对 于 任意 Y86-64 
程序 ， 两 个 处 理 器 对 程序 员 可 见 的 状态 有 完全 一 样 的 影响 。 当 然 ， 我 们 的 验证 器 不 可 能 
真 的 运行 所 有 可 能 的 程序 ， 因 为 这 样 的 程序 的 数量 是 无 穷 大 的 。 相 反 ， 它 使 用 了 归纳 法 
来 证 明 ， 表 明 两 个 处 理 器 之 间 在 一 个 周期 到 一 个 周期 的 基础 上 都 是 一 致 的 。 进 行 这 种 分 
析 要 求 用 符号 方法 (Symbolic methods) 来 推导 硬件 ,在 符号 方法 中 ,我们 认为 所 有 的 程 
序 值 都 是 任意 的 整数 ， 将 ALU 抽象 成 某 种 “ 黑 盒 子 ”， 根 据 它 的 参数 计算 某 个 未 指定 的 
函数 。 我 们 只 假设 SEQ 和 PIPE 的 ALU 计算 相同 的 函数 。 

用 控制 逻辑 的 HCL 描述 来 产生 符号 处 理 器 模型 的 控制 远 辑 ， 因 此 我 们 能 发 现 HCL 
代码 中 的 问题 。 能 够 证 明 SEQ 和 PIPE 是 完全 相同 的 ， 也 不 能 保证 它们 忠实 地 实现 了 
Y86-64 指令 集体 系 结构 。 不 过 ， 它 能 够 发 现任 何 由 于 不 正确 的 流水 线 设计 导致 的 错误 ， 
这 是 设计 错误 的 主要 来 源 。 

在 实验 中 ， 我 们 不 仅 验 证 了 在 本 章 中 考虑 的 PIPE 版 本 ， 还 验证 了 作为 家 庭 作 业 的 
几 个 变种 ， 其 中 ， 我 们 增加 了 更 多 的 指令 ， 修 改 了 硬件 的 能 力 ， 或 是 使 用 了 不 同 的 分 支 
预测 策略 。 有 趣 的 是 ， 在 所 有 的 设计 中 ， 只 发 现 了 一 个 错误 ， 涉 及 家 庭 作 业 4.58 中 描 
述 的 变种 的 答案 中 的 控制 组 合 B( 在 4.5.8 节 中 讲述 的 ) 。 这 暴露 出 测试 体制 中 的 一 个 弱点 ， 
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导致 我 们 在 ctest 测试 脚本 中 增加 了 附加 的 情况 。 

形式 化 验证 仍然 处 在 发 展 的 早期 阶段 。 工 具 往 往 很 难 使 用 ， 而 且 还 不 能 验证 大 规模 
的 设计 。 我 们 能 够 验证 Y86-64 处 理 器 的 部 分 原因 就 是 因为 它们 相对 比较 简单 。 即 使 如 
此 ， 也 需要 几 周 的 时 间 和 精力 ， 多 次 运行 那些 工具 ， 每 次 最 多 需要 8 个 小 时 的 计算 机 时 
间 。 这 是 一 个 活路 的 研究 领域 ， 有 些 工 具 成 为 可 用 的 商业 上 版本， 有些 在 Intel、AMD 和 
IBM 这 样 的 公司 使 用 。 


BESET BENele 流水 线 化 的 Y86-64 处 理 器 的 Verilog 实现 

正如 我 们 提 到 过 的 ， 现 代 的 逻辑 设计 和 包括 用 硬件 描述 语言 书写 硬件 设计 的 文本 表 
示 。 然 后 ， 可 以 通过 模拟 和 各 种 形式 化 验证 工具 来 测试 设计 。 一 旦 对 设计 有 了 信心 ， 我 
们 就 可 以 使 用 区 辑 合成 (logic synthesis) 工 具 将 设计 翻译 成 实际 的 逻辑 电路 。 

我 们 用 Verilog 硬件 描述 语言 开发 了 Y86-64 处 理 器 设计 的 模型 。 这 些 设计 将 实现 处 
理 器 基本 构造 块 的 模块 和 直接 从 HCL 描述 产生 出 来 的 控制 逻辑 结合 了 起 来 。 我 们 能 够 
合成 这 些 设计 的 一 些 ， 将 逻辑 电路 描述 下 载 到 字段 可 编程 的 门 阵列 (FPGA) 硬 件 上 ， 可 
以 在 这 些 处 理 器 上 运行 实际 的 Y86-64 程序 。 


4. 5.9 性 能 分 析 


我 们 可 以 看 到 ， 所 有 需要 流水 线 控制 逻辑 进行 特殊 处 理 的 条 件 ， 都 会 导致 流水 线 不 能 
够 实现 每 个 时 钟 周 期 发 射 一 条 新 指令 的 目标 。 我 们 可 以 通过 确定 往 流 水 线 中 插入 气泡 的 频 
率 ， 来 衡量 这 种 效率 的 损失 ， 因 为 插入 气泡 会 导致 未 使 用 的 流水 线 周期 。 一 条 返回 指令 会 
产生 三 个 气泡 ， 一 个 加 载 / 使 用 冒险 会 产生 一 个 ， 而 一 个 预测 错误 的 分 支 会 产生 两 个 。 我 
们 可 以 通过 计算 PIPE 执行 一 条 指令 所 需要 的 平均 时 钟 周期 数 的 估计 值 ， 来 量化 这 些 处 罚 
对 整体 性 能 的 影响 ， 这 种 衡量 方法 称 为 CPI(Cycles Per Instruction， 每 指令 周期 数 )。 这 
种 衡量 值 是 流水 线 平 均 吞 吐 量 的 倒数 ， 不 过 时 间 单 位 是 时 钟 周期 ， 而 不 是 微微 秒 。 这 是 一 
个 设计 体系 结构 效率 的 很 有 用 的 衡量 标准 。 

如 有 果 我 们 忽略 异常 带 来 的 性 能 损失 (异常 的 定义 表明 它 是 很 少 出 现 的 )， 男 一 种 思考 CPI 
的 方法 是 ， 假 设 我 们 在 处 理 囊 上 运行 某 个 基准 程序 ， 并 观察 执行 阶段 的 运行 。 每 个 周期 ， 执 
行 阶段 要 么 会 处 理 一 条 指令 ， 然 后 这 条 指令 继续 通过 剩 下 的 阶段 ， 直 到 完成 ; 要 么 会 处 理 一 
个 由 于 三 种 特殊 情况 之 一 而 插入 的 气泡 。 如 果 这 个 阶段 一 共处 理 了 C; 条 指令 和 Gs 个 气泡 ， 那 
么 处 理 需 总 共 需 要 大 约 C; 十 Gs 个 时 钟 周期 来 执行 C; 条 指令 。 我 们 说 “大 约 ” 是 因为 忽略 了 启 
动 指令 通过 流水 线 的 周期 。 于 是 ， 可 以 用 如 下 方法 来 计算 这 个 基准 程序 的 CPI; 


Gi 十 C; CG 
Cn 


CPI1 = = ]. 0 


C; 
也 就 是 说 ，CPI 等 于 1.0 加 上 一 个 处 罚 项 C,/C;， 这 个 项 表明 执行 一 条 指令 平均 要 插 
人 多 少 个 气泡 。 因 为 只 有 三 种 指令 类 型 会 导致 插入 气泡 ， 我们 可 以 将 这 个 处 罚 项 分 解 成 三 
个 部 分 : 
CPI = 1.0+1w++mpitrp 
这 里 ，Lp(load penalty， 加 载 处 罚 ) 是 当 由 于 加 载 / 使 用 冒险 造成 暂停 时 捅 入 气泡 的 平 
均 数 ，mpl(mispredicted branch penalty， 预 测 错 误 分 支 处 罚 ) 是 当 由 于 预测 错误 取消 指令 
时 捅 入 气泡 的 平均 数 ， 而 rp(return penalty， 返 回 处 罚 ) 是 当 由 于 ret 指令 造成 暂停 时 插 
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入 气泡 的 平均 数 。 每 种 处 罚 都 是 由 该 种 原因 引起 的 插入 气泡 的 总 数 (C; 的 一 部 分 ) 除 以 执行 
指令 的 总 数 (C;)。 

为 了 估计 每 种 处 罚 ， 我 们 需要 知道 相关 指令 (加 载 、 条 件 转移 和 返回 ) 的 出 现 频率 ， 以 
及 对 每 种 指令 特殊 情况 出 现 的 频率 。 对 CPI 的 计算 ， 我们 使 用 下 面 这 组 频率 (等 同 于 [ 44 
和 |L46j] 中 报告 的 测量 值 ): 

e 加 载 指 令 (mrmovqg 和 popq) 占 所 有 执行 指令 的 25%。 其 中 20% 会 导致 加 载 /使 用 

冒险 。 

e 条 件 分 支 指令 占 所 有 执行 指令 的 20%。 其 中 60% 会 选择 分 支 ， 而 40% 不 选择 分 支 。 

e 返回 指令 占 所 有 执行 指令 的 2 ，。 

因此 ， 我 们 可 以 估计 每 种 处 罚 ， 它 是 指令 类 型 频率 、 条 件 出 现 频率 和 当 条 件 出 现时 插 
人 气泡 数 的 乘积 : 


本 


加 载 / 使 用 lp 0. 25 0. 20 1 0. 05 
预测 错误 mp 0. 20 0. 40 2 0.16 


返回 
三 种 处 罚 的 总 和 是 0.27， 所 以 得 到 CPI 为 1. 27。 

我 们 的 目标 是 设计 一 个 每 个 周期 发 射 一 条 指令 的 流水 线 ， 也 就 是 CPI 为 1.0。 虽 然 没 

有 完全 达到 目标 ,但 是 整体 性 能 已 经 很 不 错 了 。 我 们 还 能 看 到 ， 要 想 进 一 步 降 低 CPI， 就 

应 该 集中 注意 力 预测 错误 的 分 支 。 它 们 占 到 了 整个 处 罚 0.27 中 的 0.16， 因 为 条 件 转 移 非 

稼 和 常见， 我 们 的 预测 策略 又 经 党 出错， 而 每 次 预测 错误 都 要 取消 两 条 指令 。 

练习 题 4.43 假设 我 们 使 用 了 一 种 成 功率 可 以 达到 65 史 的 分 支 预测 策略 ， 例 如 后 向 
分 支 选择 、 前 向 分 支 就 不 选择 (BTFNT)， 如 4.5.4 节 中 描述 的 那样 。 那 么 对 CPI 有 
什么 样 的 影响 呢 ? 假设 其 他 所 有 频率 都 不 变 。 

a 练习 题 4. 44 让 我 们 来 分 析 你 为 练习 题 4.4 和 练习 题 4.5 写 的 程序 中 使 用 条 件数 据 传 
送 和 条 件 控 制 转移 的 相对 性 能 。 假 设 用 这 些 程序 计算 一 个 非常 长 的 数组 的 绝对 值 的 
和 ， 所 以 整体 性 能 主要 是 由 内 循环 所 需要 的 周期 数 决定 的 。 假 设 跳 转 指令 预测 为 选择 
分 支 ， 而 大 约 50% 的 数组 值 为 正 。 

A. 平均 来 说 ， 这 两 个 程序 的 内 循环 中 执行 了 多 少 条 指令 ? 
B. 平均 来 说 ， 这 两 个 程序 的 内 循环 中 插入 了 多 少 个 气泡 ? 
C. 对 这 两 个 程序 来 说 ， 每 个 数组 元 素平 均 需 要 多 少 个 时 钟 周 期 ? 
















4. 5. 10 未 完成 的 工作 


我 们 已 经 创建 了 PIPE 流水 线 化 的 微 处 理 器 结构 ， 设 计 了 控制 逻辑 块 ， 并 实现 了 处 理 普 
通 流水 线 流 不 足以 处 理 的 特殊 情况 的 流水 线 控制 逻辑 。 不 过 ，PIPE 还 是 缺乏 一 些 实际 微 处 
理 器 设计 中 所 必需 的 关键 特性 。 我 们 会 强调 其 中 一 些 ， 并 讨论 要 增加 这 些 特 性 需要 些 什么 。 

1. 多 周期 指令 

Y86-64 指令 集中 的 所 有 指令 都 包括 一 些 简 单 的 操作 ， 例 如 数字 加 法 。 这 些 操作 可 以 
在 执行 阶段 中 一 个 周期 内 处 理 完 。 在 一 个 更 完整 的 指令 集中 ， 我 们 还 将 实现 一 些 需 要 更 为 
复杂 操作 的 指令 ， 例 如， 整数 乘法 和 除法 ， 以 及 浮 点 运算 。 在 一 个 像 PIPE 这 样 性 能 中 等 
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的 处 理 硕 中 ， 这 些 操 作 的 典型 执行 时 间 从 浮 点 加 法 的 3 或 4 个 周期 到 整数 除法 的 64 个 周 
期 。 为 了 实现 这 些 指令 ， 我 们 既 需 要 额外 的 硬件 来 执行 这 些 计 算 ， 还 需要 一 种 机 制 来 协调 
这 些 指 令 的 处 理 与 流水 线 其 他 部 分 之 间 的 关系 。 

实现 多 周期 指令 的 一 种 简单 方法 就 是 简单 地 扩展 执行 阶段 逻辑 的 功能 ， 添 加 一 些 整 数 
和 浮 点 算术 运算 单元 。 一 条 指令 在 执行 阶段 中 逗留 它 所 需要 的 多 个 时 钟 周期 ,会 导致 取 指 
和 译 码 阶段 暂停 。 这 种 方法 实现 起 来 很 简单 ， 但 是 得 到 的 性 能 并 不 是 太 好 ，。 

通过 采用 独立 于 主流 水 线 的 特殊 硬件 功能 单元 来 处 理 较为 复杂 的 操作 ， 可 以 得 到 更 好 
的 性 能 。 通 稍 ， 有 一 个 功能 单元 来 执行 整数 乘法 和 除法 ， 还 有 一 个 来 执行 浮 点 操作 。 当 一 
条 指令 进入 译 码 阶段 时 ， 它 可 以 被 发 射 到 特殊 单元 。 在 这 个 特殊 单元 执行 该 操作 时 ， 流 水 
线 会 继续 处 理 其 他 指令 。 通 和 常 ， 浮 点 单元 本 身 也 是 流水 线 化 的 ， 因 此 多 条 指令 可 以 在 主流 
水 线 和 各 个 单元 中 并 发 执行 。 

不 同 单元 的 操作 必须 同步 ， 以 避免 出 错 。 比 如 说 ， 如 果 在 不 同 单元 执行 的 各 个 指令 之 
则 有 数据 相关 ， 控 制 逻辑 可 能 需要 暂停 系统 的 某 个 部 分 ， 直 到 由 系统 其 他 某 个 部 分 处 理 的 
操作 的 结果 完成 。 经 常 使 用 各 种 形式 的 转发 ， 将 结果 从 系统 的 一 个 部 分 传递 到 其 他 部 分 ， 
这 和 前 面 PIPE 各 个 阶段 之 间 的 转发 一 样 。 虽 然 与 PIPE 相 比 ， 整 个 设计 变 得 更 为 复杂 ， 
但 还 是 可 以 使 用 暂停 、 转 发 以 及 流水 线 控制 等 同样 的 技术 来 使 整体 行为 与 顺序 的 ISA 模型 
相 匹 配 。 

2. 与 存储 系统 的 接口 

在 对 PIPE 的 描述 中 ,我 们 假设 取 指 单元 和 数据 内 存 都 可 以 在 一 个 时 钟 周 期 内 读 或 是 
写 内 存 中 任意 的 位 置 。 我 们 还 忽略 了 由 自我 修改 代码 造成 的 可 能 冒险 ， 在 自我 修改 代码 
中 ,一 条 指令 对 一 个 存储 区 域 进行 写 ， 而 后 面 又 从 这 个 区 域 中 读 取 指令 。 进 一 步 说 ， 我们 
是 以 存储 器 位 置 的 虚拟 地 址 来 引用 它们 的 ， 这 要 求 在 执行 实际 的 读 或 写 操作 之 前 ， 要 将 虚 
拟 地 址 翻译 成 物理 地 址 。 显 然 ， 要 在 一 个 时 钟 周 期 内 完成 所 有 这 些 处 理 是 不 现实 的 。 更 精 
糕 的 是 ， 要 访问 的 存储 器 的 值 可 能 位 于 磁盘 上 ， 这 会 需要 上 百 万 个 时 钟 周 期 才能 把 数据 读 
入 到 处 理 器 内 存 中 。 

正如 将 在 第 6 章 和 第 9 章 中 讲述 的 那样 ， 处 理 器 的 存储 系统 是 由 多 种 硬件 存储 器 和 管 
理 虚 拟 内 存 的 操作 系统 软件 共同 组 成 的 。 存 储 系统 被 组 织 成 一 个 层次 结构 ， 较 快 但 是 较 小 
的 存储 旭 保 持 着 存储 器 的 一 个 子 集 ， 而 较 慢 但 是 较 大 的 存储 右 作 为 它 的 后 备 。 最 靠近 处 理 
能 的 一 层 是 高 速 缕 存 (cache) 存 储 絮 ， 它 提供 对 最 和 常 使 用 的 存储 器 位 置 的 快速 访问 。 一 个 
典型 的 处 理 器 有 了 两 个 第 一 层 高 速 缓存 一 一 一 个 用 于 读 指 令 ， 一 个 用 于 读 和 写 数据 。 男 一 种 
类 型 的 高 速 缓存 存储 器 ， 称 为 翻译 后 备 缓冲 器 (Translation Look-aside Buffer，TLB)， 它 
提供 了 从 虚拟 地 址 到 物理 地 址 的 快速 翻译 。 将 TLB 和 高 速 缓存 结合 起 来 使 用 ， 在 大 多 数 
时 候 ， 确 实 可 能 在 一 个 时 钟 周 期 内 读 指令 并 读 或 是 写 数据 。 因 此 ， 我 们 的 处 理 器 对 访问 存 
储 锅 的 简化 看 法 实际 上 是 很 合理 的 。 

虽然 高 速 缓存 中 保存 有 最 稼 引用 的 存储 句 位 置 ， 但 是 有 时 候 还 会 出 现 高 速 缓 存 不 命中 
(miss)， 也 就 是 有 些 引 用 的 位 置 不 在 高 速 缓存 中 。 在 最 好 的 情况 中 ， 可 以 从 较 高 层 的 高 速 
缓存 或 处 理 胡 的 主 存 中 找到 不 命中 的 数据 ， 这 需要 3 一 20 个 时 钟 周 期 。 同 时 ， 流水线 会 简 
单 地 暂停 ， 将 指令 保持 在 取 指 或 访 存 阶段 ， 直 到 高 速 缓 存 能 够 执行 读 或 写 操 作 。 至 于 流水 
线 设计 ， 通 过 添加 更 多 的 暂停 条 件 到 流水 线 控制 逻辑 ， 就 能 实现 这 个 功能 。 高 速 缓存 不 命 
中 以 及 随 之 而 来 的 与 流水 线 的 同步 都 完全 是 由 硬件 来 处 理 的 ， 这 样 能 使 所 需 的 时 间 尽 可 能 
地 缩短 到 很 少数 量 的 时 钟 周 期 。 
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在 有 些 情况 中 ， 被 引用 的 存储 器 位 置 实际 上 是 存储 在 磁盘 存储 器 上 的 。 此 时 ， 硬 件 会 
产生 一 个 缺 页 (page fault) 异 常 信号 。 同 其 他 异常 一 样 ， 这 个 异常 会 导致 处 理 右 调用 操作 系 
统 的 异常 处 理 程 序 代码 。 然 后 这 段 代 码 会 发 起 一 个 从 磁盘 到 主 存 的 传送 操作 。 一 旦 完成 ， 
操作 系统 会 返回 到 原来 的 程序 ， 而 导致 缺 页 的 指令 会 被 重新 执行 。 这 次 ， 存 储 船 引用 将 成 
功 ， 虽 然 可 能 会 导致 高 速 缓存 不 命中 。 让 硬件 调用 操作 系统 例 程 ， 然 后 操作 系统 例 程 又 会 
将 控制 返回 给 硬件 ， 这 就 使 得 硬件 和 系统 软件 在 处 理 缺 页 时 能 协同 工作 。 因 为 访问 磁盘 需 
要 数 百 万 个 时 钟 周期 ，OS 缺 页 中 断 处 理 程 序 执行 的 处 理 所 需 的 几 百 个 时 钟 周期 对 性 能 的 
影响 可 以 忽略 不 计 。 

从 处 理 器 的 角度 来 看 ， 将 用 和 暂停 来 处 理 短 时 间 的 高 速 缓存 不 命中 和 用 异 毅 处 理 来 处 理 长 时 
间 的 缺 页 结合 起 来 ， 能 够 顾及 到 存储 璐 访问 时 由 于 存储 希 层 次 结构 引起 的 所 有 不 可 预测 性 。 


臣下 当前 的 微 处 理 器 设计 

一 个 五 阶段 流水 线 ， 例如 已 经 讲 过 的 PIPE 处 理 器 ， 代 表 了 20 世纪 80 年 代 中 期 
的 处 理 器 设计 水 平 。Berkeley 的 Patterson 研究 组 开发 的 RISC 处 理 器 原型 是 第 一 个 
SPARC 处 理 器 的 基础 ， 它 是 Sun Microsystems 在 1987 年 开发 的 。 Stanford 的 Hen- 
nessy 研究 组 开发 的 处 理 器 由 MIPS Technologies( 一 个 由 Hennessy 成 立 的 公司 ) 在 1986 
年 商业 化 了 。 这 两 种 处 理 器 都 使 用 的 是 五 阶段 流水 线 。JIntel 的 1486 处 理 器 用 的 也 是 
五 阶段 流水 线 ， 只 不 过 阶段 之 间 的 职责 划分 不 太一 样 ， 它 有 两 个 译 码 阶段 和 一 个 合并 
的 执行 / 访 存 阶段 L27] 。 

这 些 流水 线 化 的 设计 的 吞吐 量 都 限制 在 最 多 一 个 时 钟 周期 一 条 指令 。4.5.9 小 节 中 
描述 的 CPI(Cycles Per Instruction， 每 指令 周期 ) 测 量 值 不 可 能 小 于 1.0。 不 同 的 阶段 一 
次 只 能 处 理 一 条 指令 。 较 新 的 处 理 器 支持 超标 量 (sSuperscalar) 操 作 ， 意 味 着 它们 通过 并 
行 地 取 指 、 译 码 和 执行 多 条 指令 ， 可 以 实现 小 于 1.0 的 CPI。 当 超标 量 处 理 器 已 经 广泛 
使 用 时 ， 性 能 测量 标准 已 经 从 CPI 转化 成 了 它 的 倒数 一 一 每 周期 执行 指令 的 平均 数 ， 即 
IPC。 对 超标 量 处 理 器 来 说 ，IPC 可 以 大 于 1.0。 最 先进 的 设计 使 用 了 一 种 称 为 乱 序 
(out-of-order) 执 行 的 技术 来 并 行 地 执行 多 条 指令 ， 执 行 的 顺序 也 可 能 完全 不 同 于 它们 在 
程序 中 出 现 的 顺序 ， 但 是 保留 了 顺序 ISA 模型 冀 含 的 整体 行为 。 作 为 对 程序 优化 的 讨论 
的 一 部 分 ， 我 们 将 会 在 第 5 章 中 讨论 这 种 形式 的 执行 。 

不 过 ， 流 水 线 化 的 处 理 器 并 不 只 有 传统 的 用 途 。 现 在 出 售 的 大 部 分 处 理 器 都 用 在 文 
入 式 系统 中 ， 控 制 着 汽车 运行 、 消 费 产 品 ， 以 及 其 他 一 些 系统 用 户 不 能 直接 看 到 处 理 器 
的 设备 。 在 这 些 应 用 中 ， 与 性 能 较 高 的 模型 相 比 ， 流 水 线 化 的 处 理 器 的 简单 性 (比如 说 
像 我 们 在 本 章 中 讨论 的 这 样 ) 会 降低 成 本 和 功 耗 需求 。 

最 近 ， 随 着 多 核 处 理 器 受到 追 撞 ， 有 些 人 声称 通过 在 一 个 芯片 上 集成 许多 简单 的 处 
理 器 ， 比 使 用 少量 更 复杂 的 处 理 器 能 获得 更 多 的 整体 计算 能 力 。 这 种 策略 有 时 被 称 为 
“多 核 ” 处 理 器 [10j]。 


4.6 小 结 

我 们 已 经 看 到 ， 指 令 集 体系 结构 ， 即 ISA， 在 处 理 器 行为 (就 指令 集合 及 其 编码 而 言 ) 和 如 何 实 现 处 
理 器 之 间 提 供 了 一 层 抽象 。ISA 提供 了 程序 执行 的 一 种 顺序 说 明 ， 也 就 是 一 条 指令 执行 完了 ， 下 一 条 指 
令 才 会 开始 。 

从 IA32 指令 开始 ， 大 大 简化 数据 类 型 、 地 址 模式 和 指令 编码 ， 我 们 定义 了 Y86-64 指令 集 。 得 到 的 
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ISA 既 有 RISC 指令 集 的 属性 ， 也 有 CISC 指令 集 的 属性 。 然 后 ， 将 不 同 指令 组 织 放 到 五 个 阶段 中 处 理 ， 
在 此 ， 根 据 被 执行 的 指令 的 不 同 ， 每 个 阶段 中 的 操作 也 不 相同 。 据 此 ， 我 们 构造 了 SEQ 处 理 器 ， 其 中 每 
个 时 钟 周期 执行 一 条 指令 ， 它 会 通过 所 有 五 个 阶段 。 

流水 线 化 通过 让 不 同 的 阶段 并 行 操 作 ， 改 进 了 系统 的 吞吐 量 性 能 。 在 任意 一 个 给 定 的 时 刻 ， 多 条 指 
令 被 不 同 的 阶段 处 理 。 在 引入 这 种 并 行 性 的 过 程 中 ,我 们 必须 非常 小 心 ， 以 提供 与 程序 的 顺序 执行 相同 
的 程序 级 行为 。 通 过 重新 调整 SEQ 各 个 部 分 的 顺序 ， 引 入 流水 线 ， 我 们 得 到 SEQ 十 ， 接 着 添加 流水 线 寄 
存 器 ， 创 建 出 PIPE 一 流水 线 。 然 后 ， 添 加 了 转发 逻辑 ， 加 速 了 将 结果 从 一 条 指令 发 送 到 另 一 条 指令 ， 从 
而 提高 了 流水 线 的 性 能 。 有 几 种 特殊 情况 需要 额外 的 流水 线 控制 逻辑 来 暂停 或 取消 一 些 流水 线 阶 段 。 

我 们 的 设计 中 包括 了 一 些 基本 的 异常 处 理 机 制 ， 在 此 ， 保 证 只 有 到 异常 指令 之 前 的 指令 会 影响 程序 
员 可 见 的 状态 。 实 现 完整 的 异常 处 理 远 比 此 更 具 挑 战 性 。 在 采用 了 更 深 流 水 线 和 更 多 并 行 性 的 系统 中 ， 
要 想 正 确 处 理 异 常 就 更 加 复杂 了 。 

在 本 章 中 ， 我 们 学 习 了 有 关 处 理 器 设计 的 几 个 重要 经 验 : 

@ 管理 复杂 性 是 首要 问题 。 想 要 优化 使 用 硬件 资源 ， 在 最 小 的 成 本 下 获得 最 大 的 性 能 。 为 了 实现 这 
个 目的 ， 我 们 创建 了 一 个 非常 简单 而 一 致 的 框架 ,来 处 理 所 有 不 同 的 指令 类 型 。 有 了 这 个 框架 ， 
就 能 够 在 处 理 不 同 指令 类 型 的 逻辑 中 共享 硬件 单元 。 
我 们 不 需要 直接 实现 ISA。ISA 的 直接 实现 意味 着 一 个 顺序 的 设计 。 为 了 获得 更 高 的 性 能 ， 我 们 想 
运用 硬件 能 力 以 同时 执行 许多 操作 ， 这 就 导致 要 使 用 流水 线 化 的 设计 。 通 过 仔细 的 设计 和 分 析 ， 
我 们 能 够 处 理 各 种 流水 线 冒 险 ， 因 此 运行 一 个 程序 的 整体 效果 ， 同 用 ISA 模型 获得 的 效果 完全 
一 部 。 
硬件 设计 人 员 必 须 非 常 谨慎 小 心 。 一 旦 芯片 被 制造 出 来 ， 就 几乎 不 可 能 改正 任何 错误 了 。 一 开始 就 
使 设计 正确 是 非常 重要 的 。 这 就 意味 着 要 仔细 地 分 析 各 种 指令 类 型 和 组 合 ， 甚 至 于 那些 看 上 去 没有 
意义 的 情况 ， 例 如 弹出 值 到 栈 指针 。 必 须 用 系统 的 模拟 测试 程序 彻底 地 测试 设计 。 在 开发 PIPE 的 
控制 逻辑 中 ， 我 们 的 设计 有 个 细微 的 错误 ， 只 有 通过 对 控制 组 合 的 仔细 而 系统 的 分 析 才 能 发 现 。 


网 络 旁 注 ARCH:HCL | ee Y86-64 处 理 器 的 HCL 描述 

本 章 已 经 介绍 几 个 简单 的 远 辑 设计 ， 以 及 Y86-64 处 理 器 SEQ 和 了 PIPE 的 控制 逻辑 
的 部 分 HCL 代码 。 我 们 提供 了 HCL 语言 的 文档 和 这 两 个 处 理 器 的 控制 远 辑 的 完整 
HCL 描述 。 这 些 描述 每 个 都 只 需要 5 一 7 页 HCL 代码， 完整 地 研究 它们 是 很 值得 的 。 


Y86-64 模拟 器 


本 章 的 实验 资料 包括 SEQ 和 PIPE 处 理 器 的 模拟 器 。 每 个 模拟 咒 都 有 两 个 版 本 : 
@ GUI( 图 形 用 户 界面 ) 版 本 在 图 形 窗口 中 显示 内 存 、 程 序 代码 以 及 处 理 器 状态 。 它 提供 了 一 种 方式 
简便 地 查看 指令 如 何 通 过 处 理 器 。 控 制 面板 还 允许 你 交互 式 地 重启 动 、 单 步 或 运行 模拟 需 。 
e@ 文本 版 本 运行 的 是 相同 的 模拟 器 ， 但 是 它 显 示 信 息 的 唯一 方式 是 打印 到 终端 上 。 对 调试 来 讲 ， 这 
个 版 本 不 是 很 有 用 ,但 是 它 允 许 处 理 颖 的 目 动 测试 。 
这 些 模拟 器 的 控制 多 辑 是 通过 将 逻辑 块 的 HCL 声明 翻译 成 C 代码 产生 的 。 然 后 ， 编 译 这 些 代 码 并 
与 模拟 代码 的 其 他 部 分 进行 链接 。 这 样 的 结合 使 得 你 可 以 用 这 些 模拟 器 测试 原始 设计 的 各 种 变种 。 提 供 
的 测试 脚本 ， 它 们 全 面 地 测试 各 种 指令 以 及 各 种 冒险 的 可 能 性 。 
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家 庭 作 业 


* 4.45 


* 4. 46 


“+ 4. 47 


**» 4. 48 


#4.49 


ty 4. 50 


在 3. 4. 2 节 中 ，x86-64 pushqg 指令 被 描述 成 要 减少 栈 指 针 ， 然 后 将 寄存 器 存储 在 栈 指针 的 位 
置 。 因 此 ， 如 果 我 们 有 一 条 指令 形 如 对 于 某 个 寄存 器 REG，pushq REG， 它 等 价 于 下 面 的 代 
码 序列 ， 


subq $8,%rsp Decrement stack pointer 
movg REG, (hrsp) Store REG on stack 


A. 借助 于 练习 题 4.7 中 所 做 的 分 析 ， 这 段 代 码 序列 正确 地 描述 了 指令 pushq srsp 的 行为 吗 ? 请 
解释 。 

B. 你 该 如 何 改 写 这 段 代码 序列 ， 使 得 它 能 够 像 对 REG 是 其 他 寄存 器 时 一 样 ， 正 确 地 描述 REG 
是 $rsp 的 情况 ? 

在 3.4. 2 节 中 ，x86-64 popq 指令 被 描述 为 将 来 自 栈 顶 的 结果 复制 到 目的 寄存 器 ， 然 后 将 栈 指 针 减 

少 。 因 此 ， 如 果 我 们 有 一 条 指令 形 如 opg REG， 它 等 价 于 下 面 的 代码 序列 : 


movq (%rsp), REG Read REG from stack 
addq $8,%rsp Increment stack pointer 


A. 借助 于 练习 题 4.8 中 所 做 的 分 析 ， 这 段 代 码 序 列 正确 地 描述 了 指令 popq %rsp 的 行为 吗 ? 请 
解释 。 

B. 你 该 如 何 改写 这 段 代 码 序 列 ， 使 得 它 能 够 像 对 REG 是 其 他 寄存 器 时 一 样 ， 正 确 地 描述 REG 
是 Srsp 的 情况 ? 

你 的 作业 是 写 一 个 执行 冒 泡 排序 的 Y86-64 程序 。 下 面 这 个 C 肾 数 用 数组 引用 实现 冒 泡 排 序 ， 供 你 

参考 : 


/* Bubble sort: Array version */ 
void bubble_a(long *data, long count) { 
long i, last,; 
for (last = count-1; last > 0; last-—-) { 
for (i = 0; i < last; i++) 
if (data[i+1] < data[i]) { 
/* Swap adjacent elements */ 
long t = data[i+1] ; 
data[i+1] = data[i] ; 
data[i] = 七 ; 


am | -< 
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A. 书写 并 测试 一 个 C 版 本 ， 它 用 指针 引用 数组 元 素 ， 而 不 是 用 数组 索引 。 

B. 书写 并 测试 一 个 由 这 个 函数 和 测试 代码 组 成 的 Y86-64 程序 。 你 会 发 现 模仿 编译 你 的 C 代码 产 
生 的 x86-64 代码 来 做 实现 会 很 有 帮助 。 虽 然 指 针 比 较 通 常 是 用 无 符号 算术 运算 来 实现 的 ， 但 
是 在 这 个 练习 中 ， 你 可 以 使 用 有 符号 算术 运算 。 

修改 对 家 庭 作 业 4. 47 所 写 的 代码 ， 实 现 冒 泡 排序 函数 的 测试 和 交换 (6 一 11 行 )， 要 求 不 使 用 跳 转 ， 

且 最 多 使 用 3 次 条 件 传 送 。 

修改 对 家 庭 作 业 4. 47 所 写 的 代码 ， 实 现 冒 泡 排 序 函 数 的 测试 和 交换 (6 一 11 行 )， 要 求 不 使 用 跳 转 ， 

且 只 使 用 1 次 条 件 传送 。 

在 3.6.8 节 中 ,我们 看 到 实现 switch 的 一 种 常见 方法 是 创建 一 组 代码 块 ， 再 用 跳 转 表 对 这 些 块 进 

行 索 引 。 考 虑 图 4-69 中 给 出 的 函数 switchv 的 C 代码 ,以 及 相应 的 测试 代码 。 

用 跳 转 表 以 Y86-64 实现 switchv。 虽 然 Y86-64 指令 集 不 包含 间接 跳 转 指令 ， 但 是 ， 你 可 以 

通过 把 计算 好 的 地 址 人 栈 ， 再 执行 ret 指令 来 获得 同样 的 效果 。 实 现 类 似 于 C 语言 所 示 的 测试 代 

码 ， 证 明 你 的 switchv 实现 可 以 处 理 触 发 default 的 情况 以 及 两 个 显 式 处 理 的 情况 。 
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#include <stdio.h> 
/* Example use of switch statement */ 


long switchv(long idx) 1{ 
long result = 0; 
switch(idx) 攻 
case 0: 
result = Oxaaa; 
break ; 

Case 2: 

case 95: 
result Oxbbb,; 
break; 

Case 3: 
result Oxccc; 
break; 

default: 
result Oxddd; 


》 
return result; 


. 


/* Testing Code */ 
#define CNT 8 
#define MINVAL -1 


int main() { 
long vals[CNT]; 
long i; 
for (i = 0; i < CNT; i++) { 
vals[i] = switchv(i + MINVAL); 
printf("idx = %ld, val = Ox%lx\n", i + MINVAL, vals[i]); 
J 


return 0; 





图 4-69 switch 语句 可 以 翻译 成 Y86-64 代码 。 这 要 求实 现 一 个 跳 转 表 


练习 题 4. 3 介绍 了 iaddqq 指 令 ， 即 将 立即 数 与 寄存 器 相 加 。 描 述 实现 该 指令 所 执行 的 计算 。 参 考 
irmovq 和 OPa 指 令 的 计算 (图 4-18) 。 

文件 seq-full. hcl 包 含 SEQ 的 HCL 描述， 并 将 常数 IIADDO 声明 为 十 六 进 制 值 C， 也 就 是 iad- 
da 的 指令 代码 。 修 改 实现 iaddg 指令 的 控制 逻辑 块 的 HCL 描述 ， 就 像 练 习题 4.3 和 家 庭 作 业 
4. 51 中 摘 述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 
指导 。 

假设 要 创建 一 个 较 低 成 本 的 、 基 于 我 们 为 PIPE 一 设计 的 结构 (图 4-41) 的 流水 线 化 的 处 理 器 ， 不 使 
用 旁 路 技术 。 这 个 设计 用 暂停 来 处 理 所 有 的 数据 相关 ， 直 到 产生 所 需 值 的 指令 已 经 通过 了 写 回 
阶段 。 

文件 pipe-stall. hcl 包含 一 个 对 PIPE 的 HCL 代码 的 修改 版 ， 其 中 禁止 了 旁 路 逻辑 。 也 就 是 ， 
信号 e valRa 和 e valB 只 是 简单 地 声明 如 下 : 


## DO NOT MODIFY THE FOLLOWING CODE. 
## No forwarding. valA is either valP or Value from register file 
word d_valA = [ 
D_icode in { ICALL, IJXX } : D_valP; # Use incremented PC 
1 : d_rvalA; # Use value read from register file 


3 
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## No forwarding. valB is value from register file 
word d_valB = d_rvalB; 
修改 文件 结尾 处 的 流水 线 控制 逻辑 ， 使 之 能 正确 处 理 所 有 可 能 的 控制 和 数据 冒险 。 作 为 设计 

工作 的 一 部 分 ， 你 应 该 分 析 各 种 控制 情况 的 组 合 ， 就 像 我 们 在 PIPE 的 流水 线 控制 逻辑 设计 中 做 

的 那样 。 你 会 发 现 有 许多 不 同 的 组 合 ， 因 为 有 更 多 的 情况 需要 流水 线 暂 停 。 要 确保 你 的 控制 逻辑 

能 正确 处 理 每 种 组 合 情 况 。 可 以 参考 实验 资料 指导 你 如 何 为 解答 生成 模拟 器 以 及 如 何 测试 模拟 

般 的 。 

文件 pipe-full. hcl 包含 一 份 PIPE 的 HCL 描述 ， 以 及 常数 值 IIADDO 的 声明 。 修 改 该 文件 以 实 

现 指 令 iaddqg， 就 像 练 习题 4. 3 和 家 庭 作业 4. 51 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 

的 解答 生成 模拟 右 以 及 如 何 测试 模拟 器 的 指导 。 

文件 pipe-nt. hcl 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J_YES 声明 为 值 0， 即 无 条 件 转移 指令 

的 功能 码 。 修 改 分 支 预测 逻辑 ， 使 之 对 条 件 转移 预测 为 不 选择 分 支 ， 而 对 无 条 件 转移 和 call 预测 

为 选择 分 支 。 你 需要 设计 一 种 方法 来 得 到 跳 转 目标 地 址 valC， 并 送 到 流水 线 寄 存 器 M， 以 便 从 错 

误 的 分 支 预测 中 恢复 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 

指导 。 

文件 pipe-btfnt. hcl 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J_ YES 声明 为 值 0， 即 无 条 件 转移 

指令 的 功能 码 。 修 改 分 支 预 测 迎 辑 ， 使 得 当 valc 和 valP 时 (后 向 分 支 )， 就 预测 条 件 转移 为 选择 

分 文 ， 当 valCc 宇 valP 时 (前 向 分 支 )， 就 预测 为 不 选择 分 支 。( 由 于 Y86-64 不 支持 无 符号 运算 ， 你 

应 该 使 用 有 符号 比较 来 实现 这 个 测试 。.) 并 且 将 无 条 件 转移 和 call 预测 为 选择 分 支 。 你 需要 设计 一 

种 方法 来 得 到 valc 和 valP， 并 送 到 流水 线 寄 存 器 M， 以 便 从 错误 的 分 支 预测 中 恢复 。 可 以 参考 

实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 

在 我 们 的 PIPE 的 设计 中 ， 只 要 一 条 指令 执行 了 1o0ad 操 作 ， 从 内 存 中 读 一 个 值 到 寄存 器 ， 并 且 下 

一 条 指令 要 用 这 个 寄存 器 作为 源 操作 数 ， 就 会 产生 一 个 暂停 。 如 果 要 在 执行 阶段 中 使 用 这 个 源 操 

作 数 ， 暂 停 是 避免 冒险 的 唯一 方法 。 对 于 第 二 条 指令 将 源 操作 数 存 储 到 内 存 的 情况 ， 例 如 rmmova 

或 pushq 指令 ， 是 不 需要 这 样 的 暂停 的 。 考 虑 下 面 这 段 代 码 示例 : 
mrmovg 0O(%rcx),%rdx # Load 1 
pushq “rdx # Store 1 
nop 
Popq %rdx # Load 2 
rmmovg %rax,0(%rdx)  # Store 2 

在 第 1 行 和 第 2 行 ，mrmovq 指令 从 内 存 读 一 个 值 到 srdx， 然 后 pushq 指令 将 这 个 值 压 信 械 

中 。 我 们 的 PIPE 设计 会 让 pushg 指令 暂停 ， 以 避免 装载 /使 用 冒险 。 不 过 ， 可 以 看 到 ，pushq 指 

令 要 到 访 存 阶段 才 会 需要 srdx 的 值 。 我 们 可 以 再 添加 一 条 旁 路 通路 ， 如 图 4-70 所 示 ， 将 内 存 输出 

(信号 m_valM) 转 发 到 流水 线 寄 存 器 M 中 的 vala 字 段 。 在 下 一 个 时 钟 周 期 ， 被 传送 的 值 就 能 写 入 

内 存 了 。 这 种 技术 称 为 加 载 转发 (load forwarding) 。 

注意 ， 上 述 代 码 序列 中 的 第 二 个 例子 (第 4 行 和 第 5 行 ) 不 能 利用 加 载 转发 。popq 指令 加 载 的 

值 是 作为 下 一 条 指令 地 址 计算 的 一 部 分 的 ， 而 在 执行 阶段 而 非 访 存 阶 段 就 需要 这 个 值 了 。 

A. 写 出 描述 发 现 加 载 / 使 用 冒险 条 件 的 逻辑 公式 ， 类 似 于 图 4-64 所 示 ， 除 了 能 用 加 载 转发 时 不 会 
导致 暂停 以 外 。 

B. 文件 pipe-1f. hcl 包 含 一 个 PIPE 控制 逻辑 的 修改 版 。 它 含有 信号 e_vala 的 定义 ， 用 来 实 
现 图 4-70 中 标号 为 “Fwd A” 的 块 。 它 还 将 流水 线 控制 逻辑 中 的 加 载 /使 用 冒险 的 条 件 设 
置 为 0， 因 此 流水 线 控制 逻辑 将 不 会 发 现任 何 形式 的 加 载 /使 用 冒险 。 修 改 这 个 HCL 描述 
以 实现 加 载 转发 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 
的 指导 。 


i i WwW WNW 一 
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图 4-70 能够 进行 加 载 转 发 的 执行 和 访 存 阶段 。 通 过 添加 一 条 从 内 存 输出 到 流水 线 寄存 器 M 中 vala 的 
源 的 旁 路 通路 ， 对 于 这 种 形式 的 加 载 / 使 用 冒险 ， 我 们 可 以 使 用 转发 而 不 必 暂 停 。 这 是 家 庭 作 
业 4.57 的 主旨 





** 4.58 我们 的 流水 线 化 的 设计 有 点 不 太 现实 ， 因 为 寄存 器 文件 有 两 个 写 端口 ， 然 而 只 有 popq 指令 需要 对 
寄存 器 文件 同时 进行 两 个 写 操 作 。 因 此 ， 其 他 指令 只 使 用 一 个 写 端口 ， 共 享 这 个 端口 来 写 valE 和 
valM。 下 面 这 个 图 是 一 个 对 写 回 逻辑 的 修改 版 ， 其 中 ,我 们 将 写 回 寄存 需 ID(W_dstE 和 W_dstM) 
合并 成 一 个 信号 w_ dstE， 同 时 也 将 写 回 值 C(W_ valE 和 W valM) 合 并 成 一 个 信号 w_valE: 


w_valE 
w_dstE 





Stat 


W _icode 


用 HCL 写 执行 这 些 合 并 的 逻辑 ， 如 下 所 示 ; 


## Set E port register ID 

word w_dstE = [ 
## writing from valM 
W_dstM != RNONE : W_dstM; 
i: W_dstE; 

]; 


## Set E port value 

word w_valE = [ 
W_dstM 1= RNONE : W_valM; 
1: W_ValE; 

J 
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对 这 些 多 路 复 用 器 的 控制 是 由 dstE 确定 的 一 一 当 它 表明 有 某 个 寄存 器 时 ， 就 选择 问 口 上 的 
值 ， 否 则 就 选择 端口 M 的 值 。 
在 模拟 模型 中 ， 我 们 可 以 禁止 寄存 器 端口 M， 如 下 面 这 段 HCL 代码 所 示 : 


## Disable register Port M 
## Set M port register ID 
word w_dstM = RNONE; 


## Set M port value 
word w_valM = 0; 

接 下 来 的 问题 就 是 要 设计 处 理 popg 的 方法 。 一 种 方法 是 用 控制 逻辑 动态 地 处 理 指令 popq 
rA， 使 之 与 下 面 两 条 指令 序列 有 一 样 的 效果 : 


iaddq $8, %rsp 
mrmovq -8(%rsp), rA 
(关于 指令 iaddg 的 描述 ， 请 参考 练习 题 4. 3) 要 注意 两 条 指令 的 顺序 ， 以 保证 popq srsp 能 正确 
工作 。 要 达到 这 个 目的 ， 可 以 让 译 码 阶 段 的 逻辑 对 上 面 列 出 的 popq 指令 和 addq 指令 一 视 同仁 ， 
除了 它 会 预测 下 一 个 PC 与 当前 PC 相等 以 外 。 在 下 一 个 周期 ， 再 次 取出 了 popq 指令 ,但 是 指令 
代码 变 成 了 特殊 的 值 IPOP2。 它 会 被 当 作 一 条 特殊 的 指令 来 处 理 ， 行 为 与 上 面 列 出 的 mrmovq 指令 
-= 楼 。 

文件 Pipe-lw. hcl 包含 上 面 讲 的 修改 过 的 写 端口 逻辑 。 它 将 常数 IPOP2 声明 为 十 六 进 制 值 
E。 还 包括 信号 f icode 的 定义 ， 它 产生 流水 线 寄存 器 D 的 icode 字段 。 可 以 修改 这 个 定义 ， 使 
得 当 第 二 次 取出 popq 指令 时 ,插入 指令 代码 ITPOP2。 这 个 HCL 文件 还 包含 信号 上 pc 的 声明 ， 也 
就 是 标号 为 “Select PC” 的 块 ( 图 4-57) 在 取 指 阶段 产生 的 程序 计数 器 的 值 。 

修改 该 文件 中 的 控制 逻辑 ， 使 之 按照 我 们 描述 的 方式 来 处 理 popq 指令 。 可 以 参考 实验 资料 获 
得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 


**4.59 比较 三 个 版 本 的 骨 泡 排序 的 性 能 (家 庭 作 业 4. 47、4. 48 和 4.49)。 解 释 为 什么 一 个 版 本 的 性 能 比 其 
他 两 个 的 好 。 
练习 题 答案 
4.1 手工 对 指令 编码 是 非常 乏味 的 ， 但 是 它 将 巩固 你 对 汇编 器 将 汇编 代码 变 成 字 节 序列 的 理解 。 在 下 面 
这 段 Y86-64 汇编 器 的 输出 中 ， 每 一 行 都 给 出 了 一 个 地 址 和 一 个 从 该 地 址 开始 的 字 节 序列 : 
1 Ox100: | .pos Ox100 # Start code at address 
Ox100 
2 Ox100: 30f30f00000000000000 | irmovq $15,%rbx 
3 Oxli0a: 2031 | rrmovd Wrbx,%hrcx 
4 OxiQc: | loop: 
5 Oxi0c: 4013fdffffffffffffff | rmmovq %rcx,-3(%rbx) 
6 Ox116: 6031 | addq Wrbx,%rcx 
7 Oxi1i8: 700c01000000000000 | jmp loop 
这 段 编 码 有 些 地 方 值得 注意 : 
@ 十 进 制 的 15( 第 2 行 ) 的 十 六 进 制 表 示 为 0x000000000000000f。 以 反 向 顺序 来 写 就 是 0f 00 00 00 
00 00 00 00。 
@ 十进制 一 3( 第 5 行 ) 的 十 六 进 制 表 示 为 0xfffffffffffffffQG。 以 反 向 顺序 来 写 就 fd ff ff ff ff 
ff ff ff, 
@ 代码 从 地 址 0x100 开始 。 第 一 条 指令 需要 10 个 字 节 ， 而 第 二 条 需要 2 个 字 节 。 因 此 ， 循 环 的 目 
标 地 址 为 0x0000010c。 以 反 向 顺序 来 写 就 是 0c 01 00 00 00 00 00 00。 
4.2 手工 对 一 个 字 节 序列 进行 译 码 能 帮助 你 理解 处 理 器 面临 的 任务 。 它 必须 读 和 人 字 节 序列 ， 并 确定 要 执 


行 什么 指令 。 接 下 来 ， 我 们 给 出 的 是 用 来 产生 每 个 字 节 序列 的 汇编 代码 。 在 汇编 代码 的 左边 ， 你 可 
以 看 到 每 条 指令 的 地 址 和 字 节 序列 。 


4. 3 


4.4 


332 ”第 一 部 分 程序 结 攀 和 执行 





A. 一 些 带 立即 数 和 地 址 偏 移 量 的 操作 : 


OK1002 SO0E3ECTETTTTEFEfftttt | 
Oxi0a: 40630008000000000000 | 


irmovg $-4,%hrbx 
rmmovd %rsi,O0x800(%rbx) 


Ox1i14: 00 halt 
B. 包含 一 个 函数 调用 的 代码 : 
Ox200; a06f | Pushq %rsi 
Ox202: 800c02000000000000 | call proc 
Ox20b: 00 | halt 
Ox20c: | proc: 
Ox20c: 30f30a00000000000000 | irmovg $10,%rbx 
Ox216: 90 | ret 
C. 包含 非法 指令 指示 字 节 0xf0 的 代码 : 
0x300: 50540700000000000000 | mrmovq 7(%rsp) , prbPp 
Ox30a: 10 | nop 
Ox30b: £0 | .byte Oxf0 # Invalid instruction code 
Ox30c: bO1if | Popq %rcx 
D. 包含 一 个 跳 转 操作 的 代码 : 
Ox400: | loop: 
Ox400: 6113 | subq %rcx, hrbx 
Ox402: 730004000000000000 | je loop 
Ox40b: 00 | halt 
E. pushq 指令 中 第 二 个 字 节 非法 的 代码 。 
0x500: 6362 | xorqg Whrsi,%rdx 
Ox502: a0 | .byte Oxa0 # pushq instruction 
code 
Ox503: £0 | .byte Oxf0O # Invalid register 


specifier byte 


使 用 iadda 指令 ， 我们 将 sum 函数 重新 编写 为 

# long sum(long *start, long count) 

# start in %rdi, count in %rsi 

sum: 
XOrg Wrax, hrax # sum = 0 
andq %rsi,%hrsi # Set condition codes 
jmp test 

loop: 
mrmovq (%rdi) ,hr1i0 # Get *start 
addq %r10,%rax # Add to sum 
iaddq $8,%rdi # start++ 
iaddq $-1,%rsi # count—- 

test: 
jne loop # Stop when 0 
ret 

在 x86-64 机 器 上 运行 时 ，GCC 生成 如 下 rsum 代码 : 


long rsum(long *start, long count) 


start ID Yrdi, count ID %rsi 


rsum: 
mov] $0, %eax 
testq  %rsi, %rsi 
jle .L9 
pushq  %rbx 
movq (Xrdi), %rbx 
subq $1, hrsi 
addq $8, hrdi 
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call rsum 
addq NTbRE. XTaX 
Popq “rbx 
9: 
rep; ret 


上 述 代 码 很 容易 改编 为 Y86-64 代码 : 


# long rsum(long *start, long count) 
# start in %rdi, count in Whrsi 


rsum: 
XOITQq %rax,%hrax # Set return value to 0 
andq %rsi,%rsi # Set condition codes 
je return # If count == 0, return 0 
pushqg %rbx # Save callee-saved register 
mrmovg (%rdi),%rbx # Get *start 
irmovg $-1,%r10 
addq %r10,%rsi # CoOUn 七 一 一 
irmovq $8,%ri0 
addq %r10,%rdi 并 start++ 
call rsum 
addq %rbx,%rax # Add *start to sum 
popq %rbx # Restore callee-saved register 
return: 
ret 
4.5 这 道 题 给 了 你 一 个 练习 写 汇编 代码 的 机 会 。 
1 # long absSum(long *start, long count) 
2 # start in %rdi, count in %rsi 
3 absSum: 
4 irmovg $8,%r8 # Constant 8 
5 irmovg $1,%r9 # Constant 1 
6 XOrg %rax,%rax # Sum = 0 
7 andq %rsi,%rsi # Set condition codes 
8 Jmp test 
9 loop: 
10 mrmovq (%rdi),%r1i0 # X = *start 
11 xorq %ril,%rii # Constant 0 
12 Subq %r10,%rii # -x 
13 jle pos # Skip if ~x <= 0 
14 rrmovg %r1ii,%r1i0 # 和 = 三 -x 
15 pos: 
16 addq %r10,%rax # Add to sum 
17 addq %r8,%hrdi # start++ 
18 subq %r9,%rsi # count- 一 
19 test: 
20 jne loop # Stop when 0 
21 ret 
4.6 这 道 题 给 了 你 一 个 练习 写 带 条 件 传送 汇编 代码 的 机 会 。 我 们 只 给 出 循环 的 代码 。 剩 下 的 部 分 与 练习 
题 4.5 的 一 样 。 
9 loop: 
10 mrmovg (%rdi),%r1i0 # XxX = *start 
11 xorqg %r1ii,%rii # Constant 0 
12 subq %r10,%r1il 大 ,一 和 
13 cmovg %rili,%r1i0 # If -X > 0 then x = -x 
14 addq %r10,%rax # Add to sum 
15 addq %r8,%rdi # start++ 
16 subq %r9,%rsi # Count 一- 
17 test: 
18 jne loop # Stop when 0 
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.7 虽然 难以 想象 这 条 特殊 的 指令 有 什么 实际 的 用 处 ， 但 是 在 设计 一 个 系统 时 ， 在 描述 中 避免 任何 歧义 
是 很 重要 的 。 我 们 想 要 为 这 条 指令 的 行为 确定 一 个 合理 的 规则 ， 并 且 保 证 每 个 实现 都 遵循 这 个 
规则 。 


在 这 个 测试 中 ，subq 指令 将 $rsp 的 起 始 值 与 压 人 栈 中 的 值 进 行 了 比较 。 这 个 减法 的 结果 为 0， 


表明 压 人 的 是 srsp 的 旧 值 。 

.8 更 难以 想象 为 什么 会 有 人 想 要 把 值 弹出 到 栈 指针 。 我 们 还 是 应 该 确定 一 个 规则 ， 并 且 坚 持 它 。 这 段 代 码 
序列 将 0xabcd 压 入 栈 中 ， 弹 出 到 %rsp， 然 后 返回 弹出 的 值 。 由 于 结果 等 于 0xabcd， 我 们 可 以 推断 出 
popq %$rsp 将 栈 指 针 设 置 为 从 内 存 中 读 出 来 的 那个 值 。 因 此 ， 它 等 价 于 指令 mrmovq (%rsp)，%rsp。 

.9 EXCLUSIVE-OR 琐 数 要 求 两 个 位 有 相反 的 值 : 
bool xor = (la && b) || (a && !b); 


通常 ， 信 号 eq 和 xor 是 互补 的 。 也 就 是 ， 一 个 等 于 1， 男 一 个 就 等 于 0。 
EXCLUSIVE-OR 电路 的 输出 是 位 相等 值 的 补 。 根 据 
德 摩根 定律 (网 络 旁 注 DATA:BOOL) ， 我 们 能 用 OR 
和 NOT 实现 AND， 得 到 如 图 4-71 所 示 的 电路 : 

我 们 可 以 看 到 情况 表达 式 的 第 二 部 分 可 以 写 为 
B <= C :BB 


由 于 第 一 行将 检测 出 &A 为 最 小 元 素 的 情况 ， 因 此 第 二 

行 就 只 需要 确定 B 还 是 C 是 最 小 元 素 。 

这 个 设计 只 是 对 从 三 个 输入 中 找 出 最 小 值 的 简单 

改变 。 

word Med3 = [ 
A <=B&g B< 
C <=B&B< 
B <= Ag&&A< 
C<=A&&AK“ 
1 





- 图 4-71 练习 题 4. 10 的 答案 


Il Il 人 4 
WA A 


J 


这 些 练习 使 各 个 阶段 的 计算 更 加 具体 。 从 目标 代码 中 我 们 可 以 看 到 ， 指 令 位 于 地 址 0x016。 它 由 
10 个 字 节 组 成 ， 前 两 个 字 节 为 0x30 和 0xf4。 后 八 个 字 节 是 0x0000000000000080( 十 进 制 128) 按 
字 节 反 过 来 的 形式 。 















irmovg $128, %rsp 


icode:ifun *— Mi[ 0x016|]= 3:0 
rA:rB — Mi[L 0x017]=f£:4 
valC :一 MsLOx018] 王 128 
valP * 一 0x016 十 10 王 0x020 


valE :一 0 十 valC valE * 一 0 十 128 王 128 


RLrBj]. 一 valE RLsrspj 一 valE 一 128 
PC * 一 valP PC «— valP= 0x020 


这 个 指令 将 寄存 器 srsp 设 为 128， 并 将 PC 加 10。 








icode :ifun +*— Mi [ PC] 
rA:rB -MiLPC 十 1 
valC 一 MsLPC 十 2 
valP +— PC 十 10 







4. 14 我 们 可 以 看 到 指令 位 于 地 址 0x02c， 由 两 个 字 节 组 成 ， 值 分 别 为 0xb0 和 0x00£。pushq 指令 (第 6 


行 ) 将 寄存 器 srsp 设 为 了 120， 并 且 将 9 存放 在 了 这 个 内 存 位 置 。 
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”通用 | 基体 
阶段 具体 
popg 'A popq Srax 


取 指 icode :ifun 一 Mi[ PC] icode:ifun «— Mi[ 0x02c1=b:0 
rA:rB +*— Mi[ PC 二 1] rA:rB <*— Mi[ 0x02d |=0:f£ 
valP .一 PC 十 2 valP <— 0x02c 十 2 一 0x02e 


valA 二 RLsrsp] valA +— RLsrspj] 王 120 
valB +— RI %$rspj valB +— RL Srsp]= 120 


valE * 一 valB 十 8 ValE 二 120 十 8 一 128 
valM <— Msl valA | valM +*— Ms[ 120|==9 


RL S$rspl*— valE RL Srspl*— 128 
RLrA |— valM RLSrspl*— 9 


Pc 一 va 


该 指令 将 $rax 设 为 9， 将 srsp 设 为 128， 并 将 PC 加 2。 

4.15 沿 着 图 4-20 中 列 出 的 步骤 ， 这 里 rA 等 于 srsp， 我 们 可 以 看 到 ， 在 访 存 阶 段 ， 指 令 会 将 vala( 即 
栈 指针 的 原始 值 ) 存 放 到 内 存 中 ， 与 我 们 在 x86-64 中 发 现 的 一 样 。 

4.16 沿 着 图 4-20 中 列 出 的 步骤 ， 这 里 za 等 于 srsp， 我 们 可 以 看 到 ， 两 个 写 回 操作 都 会 更 新 srsp。 因 
为 写 valM 的 操作 后 发 生 ， 指 令 的 最 终 效果 会 是 将 从 内 存 中 读 出 的 值 写 入 srsp， 就 像 在 x86-64 中 
看 到 的 一 样 。 

4. 17 实现 条 件 传送 只 需要 对 寄存 器 到 寄存 器 的 传送 做 很 小 的 修改 。 我 们 简单 地 以 条 件 测 试 的 结果 作为 


写 回 步 又 的 条 件 ; 
阶段 | cnovxxrAB 


icode:ifun 一 MiLPC 
rA:rB * 一 Mi [PC 十 1 
valP :一 PC 十 2 





valA +— RILrA | 
valE +— 0 十 vailA 


Cnd *— Cond( CC, ifun) 


if(Cnd) 
RILrB 1— valE 


PC +— valP 





4. 18 ”我 们 可 以 看 到 这 条 指令 位 于 地 址 0x037， 长 度 为 9 个 字 节 。 第 一 个 字 节 值 为 0x80， 而 后 面 8 个 字 节 是 
0x0000000000000041 按 字 节 反 过 来 的 形式 ， 即 调用 的 目标 地 址 。popq 指令 (第 7 行 ) 将 栈 指针 设 为 128。 


阶段 


icode:ifun 一 Mi PC icode:ifun 二 Mi[ 0x037]= 王 8:0 
valC 二 Ms[ PC 十 1 
valP +*— PC 十 9 


| 译 码 valB +— RL srsp| valB +— RL srsp|= 128 
执行 | valE 一 valB 十 一 8 valE +— 128 十 一 8 二 120 
























valC o— Ms[ Ox038|= 0x041 
valP <*— 0x037 十 9 一 0x040 










取 指 
译 码 
执行 
站 
本 
Po va 
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,| 


. 20 


ce 


. 22 


. 23 


; 24 


.29 


. 26 


rd 
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这 条 指令 的 效果 就 是 将 S$rsp 设 为 120, 将 0x040( 返 回 地 址 ) 存 放 到 该 内 存 地 址 ， 并 将 PC 设 为 
0x041( 调 用 的 目标 地 址 )。 
练习 题 中 所 有 的 HCL 代码 都 很 简单 明了 ， 但 是 试 着 自己 写 会 帮助 你 思考 各 个 指令 ， 以 及 如 何 处 理 
它们 。 对 于 这 个 问题 ， 我们 只 要 看 看 Y86-64 的 指令 集 (图 4-2)， 确 定 哪些 有 常数 字段 。 


bool need _valC = 
icode in { IIRMOVQ, IRMMOVQ, IMRMOVQ, IJXX, ICALL }:; 


这 段 代 码 类 似 于 srca 的 代码 : 


word srcB = [ 
icode in { IOPQ, IRMMOVQ, IMRMOVQ } : rB; 
icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP; 
1 : RNONE; # Don't need register 

is 


这 段 代 码 类 似 于 dstE 的 代码 : 


word dstM = [ 

icode in { IMRMOVQ, IPOPQ } : rA; 

1 : RNONE; # Don't write any register 
] ; 


像 在 练习 题 4. 16 中 发 现 的 那样 ， 为 了 将 从 内 存 中 读 出 的 值 存 放 到 srsp， 我 们 想 让 通过 M 端口 写 
的 优先 级 高 于 通过 王 端 口 写 。 
这 段 代码 类 似 于 alua 的 代码 : 


word aluB = [ 
icode in { IRMMOVQ, IMRMOVQ, IOPQ, ICALL, 
IPUSHQ, IRET, IPOPQ } ; valB; 
icode in { IRRMOVQ, IIRMOVQ } : 0; 
# Other instructions don't need ALU 


] 


实现 条 件 传送 令 人 吃惊 的 简单 : 当 条 件 不 满足 时 ， 通 过 将 目的 寄存 器 设置 为 RNONE 禁止 写 寄 存 天 
文件 


word dstE = [ 
icode in { IRRMOVQ } && Cnd : rB; 
icode in { IIRMOVQ, IOPQ} : rB; 
icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP; 
1 : RNONE; # Don't write any register 
站 


这 段 代码 类 似 于 mem addr 的 代码 


word mem_data = [ 
# Value from register 
icode in { IRMMOVQ, IPUSHQ } : valA; 
# Return PC 
icode == ICALL : valP; 
# Default: Don't write anything 
J 


这 段 代码 类 似 于 mem read 的 代码 
bool mem write = icode in { IRMMOVQ, IPUSHQ, ICALL }: 


计算 stat 字段 需要 从 几 个 阶段 收集 状态 信息 : 


## Determine instruction status 
word Stat = [ 
imem_error || dmem_error : SADR; 
Iinstr_valid: SINS; 
icode == IHALT : SHLT; 
1 : SAOK; 


4. 28 


4. 30 


4. 31 


4. 33 
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这 个 题目 非常 有 趣 ， 它 试图 在 一 组 划分 中 找到 优化 和 平衡。 它 提供 了 大 量 的 机 会 来 计算 许多 流水 线 

的 吞吐 量 和 延迟 。 

A. 对 一 个 两 阶段 流水 线 来 说 ， 最 好 的 划分 是 块 A、B 和 C 在 第 一 阶段 , 块 D、E 和 FF 在 第 二 阶 
段 。 第 一 阶段 的 延迟 为 170ps， 所 以 整个 周期 的 时 长 为 170 十 20=190ps。 因 此 吞吐 量 为 5. 26 
GIPS， 而 延迟 为 380ps。 

B. 对 一 个 三 阶段 流水 线 来 说 ， 应 该 使 块 A 和 B 在 第 一 阶段 ， 块 C 和 了 DD 在 第 二 阶段 ， 而 块 EE 和 F 
在 第 三 阶段 。 前 两 个 阶段 的 延迟 均 为 110ps， 所 以 整个 周期 时 长 为 130ps， 而 吞吐 量 为 7. 69 
GIPS。 延 迟 为 390ps。 

C. 对 一 个 四 阶段 流水 线 来 说 ， 块 A 为 第 一 阶段 , 块 B 和 C 在 第 二 阶段 ,， 块 D 是 第 三 阶段 ， 而 块 
E 和 下 在 第 四 阶段 。 第 二 阶段 需要 90ps， 所 以 整个 周期 时 长 为 110ps， 而 否 吐 量 为 9. 09 GIPS。 
延迟 为 440ps。 

D. 最 优 的 设计 应 该 是 五 阶段 流水 线 ， 除 了 下 和 了 处 于 第 五 阶段 以 外 ， 其 他 每 个 块 是 一 个 阶段 。 周 
期 时 长 为 80 十 20 王 100ps， 香 吐 量 为 大 约 10.00 GIPS， 而 延迟 为 500ps。 变 成 更 多 的 阶段 也 不 
会 有 帮助 了 ， 因 为 不 可 能 使 流水 线 运行 得 比 以 100ps 为 一 周期 还 要 快 了 。 

每 个 阶段 的 组 合 逻 辑 都 需要 300/kps， 而 流水 线 寄存 器 需要 20ps。 

A. 整个 的 延迟 应 该 是 300 十 20&ps， 而 吞吐 量 (以 GIPS 为 单位 ) 应 该 是 


1000 _ _1000k 
0 4 go 300 十 20k 





B. 当 趋 近 于 无 穷 大 ， 香 吐 量变 为 1 000/20=50 GIPS。 当 然 。 这 也 使 得 延迟 为 无 穷 大 。 
这 个 练习 题 量化 了 很 深 的 流水 线 引 起 的 收益 下 降 。 当 我 们 试图 将 逻辑 分 割 为 很 多 阶段 时 ， 流水线 
寄存 器 的 延迟 成 为 了 一 个 制约 因素 。 
这 段 代码 非常 类 似 于 SEQ 中 相应 的 代码 ， 除 了 我 们 还 不 能 确定 数据 内 存 是 否 会 为 这 条 指令 产生 一 
个 错误 信和 号。 
# Determine staitus code for fetched instruction 
word f_stat = [ 
imem_error: SADR; 
linstr _ valid :; SINS; 
f_icode == IHALT : SHLT; 
1 : SAOK; 
]3 
这 段 代 码 只 是 简单 地 给 SEQ 代码 中 的 信号 名 前 加 上 前 级 “gq ”和 “D ”。 


word d_dstE = [ 

D_icode in { IRRMOVQ, IIRMOVQ, IOPQ} : D_rB; 

D_icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP; 

1 : RNONE; # Don't write any register 
]; 
由 于 popq 指 令 ( 第 4 行 ) 造 成 的 加 载 /使 用 冒险 ，rrmovq 指令 (第 5 行 ) 会 暂停 一 个 周期 。 当 它 进 入 
译 码 阶段 ，popq 指令 处 于 访 存 阶段 ,使 M dstE 和 M dstM 都 等 于 %rsp。 如 果 两 种 情况 反 过 来 。 那 
么 来 自 M valE 的 写 回 优先 级 较 高 ， 导 致 增加 了 的 栈 指 针 被 传送 到 rrmova 指令 作为 参数 。 这 与 练 
习题 4. 8 中 确定 的 处 理 popq srsp 的 惯例 不 一 致 。 
这 个 问题 让 你 体验 一 下 处 理 器 设计 中 一 个 很 重要 的 任务 一 一 为 一 个 新 处 理 器 设计 测试 程序 。 通 常 ， 
我 们 的 测试 程序 应 该 能 测试 所 有 的 冒险 可 能 性 ， 而 且 一 旦 有 相关 不 能 被 正确 处 理 ， 就 会 产生 错误 
的 结果 。 

对 于 此 例 ， 我 们 可 以 使 用 对 练习 题 4. 32 中 所 示 的 程序 稍微 修改 的 版 本 : 
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irmovg $5, hrdx 


1 

2 irmovg $0Ox100,%rsp 
3 rmmovg %rdx,0(%rsp) 
4 Popq %rsp 

5 nop 

6 nop 

7 


rrmovg hrsp,hrax 


两 个 nop 指令 会 导致 当 rrmovq 指令 在 译 人 码 阶 段 中 时 ，popq 指令 处 于 写 回 阶段 。 如 果 给 予 处 
于 号 回 阶段 中 的 两 个 转发 源 错误 的 优先 级 ， 那 么 寄存 器 %rax 会 设置 成 增加 了 的 程序 计数 器 ， 而 不 
是 从 内 存 中 读 出 的 值 。 
4.34 这 个 逻辑 只 需要 检查 5 个 转发 源 . 
word d_valB = [ 


d_srcB == 6_dstE : e_ValE; # Forward valE from execute 
d_srcB == M_dstM :; m_valM; # Forward valM from memory 
d_srcB == M dstE : M valE; # Forward valE from memory 
d_srcB == W_dstM : W_valM; # Forward valM from write back 
d_srcB == W_dstE : W_ValE; # Forward valE from write back 


1 : d_rvalB; # Use Value read from register file 


Ua 


4. 35 ”这 个 改变 不 会 处 理 条 件 传送 不 满足 条 件 的 情况 ， 因 此 将 dstE 设置 为 RNONE。 即 使 条 件 传 送 并 没有 
发 生 ， 结 果 值 还 是 会 被 转发 到 下 一 条 指令 。 


1 irmovg $0Ox123,%rax 

2 irmovq $0Ox321,%rdx 

3 Xorq Wrcx, hrcx # CC = 100 

4 cmovne rax,%rdx # Not transferred 
5 addq hrdx,%rdx # Should be 0x642 
6 halt 


这 段 代 码 将 寄存 器 %rdx 初始 化 为 0x321。 条 件数 据 传 送 没 有 发 生 ， 所 以 最 后 的 addq 指令 应 
该 把 srdqx 中 的 值 翻 倍 ， 得 到 0x642。 不 过 ， 在 修改 过 的 版 本 中 ， 条 件 传 送 源 值 0x123 被 转发 
到 ALU 的 输入 valA， 而 valB 正确 地 得 到 了 操作 数值 0x321。 两 个 输入 加 起 来 就 得 到 结 
果 0x444。 

4. 36 ”这 段 代 码 完成 了 对 这 条 指令 的 状态 码 的 计算 。 


## Update the status 

word m_stat = [ 
dmem_error : SADR; 
六 

] 


4.37 设计 下 面 这 个 测试 程序 来 建立 控制 组 合 A( 图 4-67) ， 并 探测 是 否 出 了 错 ; 


1 # Code to generate a combination of not-taken branch and ret 
2 irmovd Stack, %rsp 

3 irmovg rtnp,%rax 

4 pushg hrax # Set up return pointer 

5 Xorq hrax,hrax # Set Z condition code 

6 jne target # Not taken (First part of combination) 
7 irmovg $1,hrax  # Should execute this 

8 halt 

9 target: ret # Second part of combination 

10 irmovd $2,%hrbx  # Should not execute this 

11 halt 

12 rtnp: irmovd $3,%rdx  # Should not execute this 

13 halt 


14 .PoSs Ox40 
15 Stack: 


4. 38 


4. 39 


4. 40 


4. 41 


4. 43 


4. 44 
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设计 这 个 程序 是 为 了 出 错 ( 例 如 如 果实 际 上 执行 了 ret 指令 ) 时 ,程序 会 执行 一 条 额外 的 ir- 
movq 指令 ， 然 后 停止 。 因 此 ， 流 水 线 中 的 错误 会 导致 某 个 寄存 器 更 新 错误 。 这 有 段 代码 说 明 实 现 测 
试 程序 需要 非常 小 心 。 它 必须 建立 起 可 能 的 错误 条 件 ， 然 后 再 探测 是 否 有 错误 发 生 。 
设计 下 面 这 个 测试 程序 用 来 建立 控制 组 合 B( 图 4-67)。 模 拟 器 会 发 现 流 水 线 寄 存 器 的 气泡 和 暂停 
控制 信号 都 设置 成 0 的 情况 ， 因 此 我 们 的 测试 程序 只 需要 建立 它 需 要 发 现 的 组 合 情 况 。 最 大 的 挑 
战 在 于 当 处 理 正 确 时 ， 程 序 要 做 正确 的 事情 。 


1 # Test instruction that modifies %esp followed by ret 

2 irmovg mem,%rbx 

3 mrmovg 0(%rbx),%rsp # Sets %hrsp to point to return point 
4 ret # Returns to return point 

5 halt # 

6 rtnpt: irmovg $5,%rsi # Return point 

7 halt 

8 .Pos Ox40 

9 mem: .quad stack # Holds desired stack pointer 

10 .Pos Ox50 

11 stack: .quad rtnpt # Top of stack: Holds return point 





这 个 程序 使 用 了 内 存 中 两 个 初始 化 了 的 字 。 第 一 个 字 (mem) 保存 着 第 二 个 字 (stack 期 望 

的 栈 指针 ) 的 地 址 。 第 二 个 字 保 存 着 ret 指令 期 望 的 返回 点 的 地 址 。 这 个 程序 将 栈 指针 加 载 到 
srsp， 并 执行 ret 指令 。 
从 图 4-66 我 们 可 以 看 到 ， 由 于 加 载 /使 用 冒险 ， 流水线 寄 存 器 D 必须 暂停 。 
bool D_stall = 

# Conditions for a load/use hazard 

E_icode in { IMRMOVQ, IPOPQ 上 && 

E_dstM in { d_srcA, d_srcB }:; 
从 图 4-66 中 可 以 看 到 ， 由 于 加 载 /使 用 冒险 ， 或 者 由 于 分 支 预 测 错 误 ， 流水线 寄 存 胡 下 必须 设置 
成 气泡 : 
bool E_bubble = 

# Mispredicted branch 

(E_icode == IJXX && le_Cnd) || 

# Conditions for a load/use hazard 

E_icode in { IMRMOVQ, IPOPQ } && 

E_ dstM in { d_srcA, d_srcB}; 
这 个 控制 需要 检查 正在 执行 的 指令 的 代码 ， 还 需要 检查 流水 线 中 更 后 面 阶段 中 的 异常 。 


## Should the condition codes be updated? 
bool set_cc = E_ icode == TOPQ && 
# State changes only during normal operation 
Im_stat in { SADR, SINS, SHLT } && !W_stat in { SADR, SINS, SHLT }; 
在 下 一 个 周期 各 访 存 阶 段 插 入 气泡 需要 检查 当前 周期 中 访 存 或 者 写 回 阶段 中 是 否 有 异常 。 


# Start injecting bubbles as soon as exception passes through memory stage 
bool M_bubble = m_stat in { SADR, SINS, SHLT } || W_stat in { SADR, SINS, SHLT }; 


对 于 暂停 写 回 阶段 ， 只 用 检查 这 个 阶段 中 的 指令 的 状态 。 如 果 当 访 存 阶段 中 有 异常 指令 时 我 
们 也 暂停 了 ， 那 么 这 条 指令 就 不 能 进入 写 回 阶段 。 
bool W_stall = W_stat in { SADR, SINS, SHLT }; 


此 时 ， 预 测 错 误 的 频率 是 0. 35， 得 到 mp 二 0. 20X0.35X2 王 0.14， 而 整个 CPI 为 1.25。 看 上 去 收 
获 非 常 小 ， 但 是 如 果实 现 新 的 分 支 预测 策略 的 成 本 不 是 很 高 的 话 ， 这 样 做 还 是 值得 的 。 

在 这 个 简化 的 分 析 中 ， 我 们 把 注意 力 放 在 了 内 循环 上 ， 这 是 估计 程序 性 能 的 一 种 很 有 用 的 方法 ， 
只 要 数组 足够 大 ， 花 在 代码 其 他 部 分 的 时 间 可 以 忽略 不 计 。 

A. 使 用 条 件 转 移 的 代码 的 内 循环 有 9 条 指令 ， 当 数组 元 素 是 0 或 者 为 负 时 ， 这 些 指令 都 要 执行 ， 
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当 数 组 元 素 为 正 时 ， 要 执行 其 中 的 8 条 。 平 均 是 8. 5 条 。 使 用 条 件 传送 的 代码 的 内 循环 有 8 条 
指令 ， 每 次 都 必须 执行 。 

B. 用 来 实现 循环 闭合 的 跳 转 除了 当 循 环 中 止 时 之 外 ， 都 能 预测 正确 。 对 于 非常 长 的 数组 ， 这 个 预 
测 错误 对 性 能 的 影响 可 以 忽略 不 计 。 对 于 基于 跳 转 的 代码 ， 其 他 唯一 可 能 引起 气泡 的 源 取 决 于 
数组 元 素 是 否 为 正 的 条 件 转移 。 这 会 导致 两 个 气泡 ， 但 是 只 在 50 为 的 时 间 里 会 出 现 ， 所 以 平 
均值 是 1.0。 在 条 件 传 送 代 码 中 ， 没 有 气泡 。 

. 我 们 的 条 件 转移 代码 对 于 每 个 元 素平 均 需要 8. 5 十 1.0= 二 9.5 个 周期 (最 好 情况 要 9 个 周期 ， 最 
差 情况 要 10 个 周期 )， 而 条 件 传送 代码 对 于 所 有 的 情况 都 需要 8.0 个 周期 。 

我 们 的 流水 线 的 分 支 预 测 错 误 处 罚 只 有 两 个 周期 一 一 远 比 对 性 能 更 高 的 处 理 右 中 很 深 的 流水 

线 造成 的 处 罚 要 小 得 多 。 因 此 ， 使 用 条 件 传送 对 程序 性 能 的 影响 不 是 很 大 。 


ON 
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优化 程序 性 能 


写 程序 最 主要 的 目标 就 是 使 它 在 所 有 可 能 的 情况 下 都 正确 工作 。 一 个 运行 得 很 快 但 是 
给 出 错误 结果 的 程序 没有 任何 用 处 。 程 序 员 必 须 写 出 清晰 简洁 的 代码 ， 这 样 做 不 仅 是 为 了 
目 己 能 够 看 懂 代 码 ， 也 是 为 了 在 检查 代码 和 今后 需要 修改 代码 时 ， 其 他 人 能 够 读 懂 和 理解 
代码 。 

另 一 方面 ， 在 很 多 情况 下 ， 让 程序 运行 得 快 也 是 一 个 重要 的 考虑 因素 。 如 果 一 个 程序 
要 实时 地 处 理 视 频 帧 或 者 网 络 包 ， 一 个 运行 得 很 慢 的 程序 就 不 能 提供 所 需 的 功能 。 当 一 个 
计算 任务 的 计算 量 非 常 大 ， 需 要 执行 数 日 或 者 数 周 ， 那 么 哪怕 只 是 让 它 运 行 得 快 20% 也 会 
产生 重大 的 影响 。 本 章 会 探讨 如 何 使 用 几 种 不 同类 型 的 程序 优化 技术 ， 使 程序 运行 得 
更 快 。 

编写 高 效 程序 需要 做 到 以 下 几 点 : 第 一 ， 我 们 必须 选择 一 组 适当 的 算法 和 数据 结构 。 
第 二 ， 我 们 必须 编写 出 编译 器 能 够 有 效 优化 以 转换 成 高 效 可 执行 代码 的 源 代 码 。 对 于 这 第 
二 点 ， 理 解 优 化 编译 器 的 能 力 和 局 限 性 是 很 重要 的 。 编 写 程序 方式 中 看 上 去 只 是 一 点 小 小 
的 变动 ， 都 会 引起 编译 希 优 化 方式 很 大 的 变化 。 有 些 编 程 语 言 比 其 他 语言 容易 优化 。C 语 
言 的 有 些 特性 ， 例 如 执行 指针 运算 和 强制 类 型 转换 的 能 力 ， 使 得 编译 器 很 难 对 它 进 行 优 
化 。 程 序 员 经 常 能 够 以 一 种 使 编译 器 更 容易 产生 高 效 代码 的 方式 来 编写 他 们 的 程序 。 第 三 
项 技术 针对 处 理 运算 量 特别 大 的 计算 ， 将 一 个 任务 分 成 多 个 部 分 ， 这 些 部 分 可 以 在 多 核 和 
多 处 理 需 的 某 种 组 合 上 并 行 地 计算 。 我 们 会 把 这 种 性 能 改进 的 方法 推迟 到 第 12 章 中 去 讲 。 
即使 是 要 利用 并 行 性 ， 每 个 并 行 的 线程 都 以 最 高 性 能 执行 也 是 非常 重要 的 ， 所 以 无 论 如 何 
本 章 所 讲 的 内 容 也 还 是 有 意义 的 。 

在 程序 开发 和 优化 的 过 程 中 ， 我们 必须 考虑 代码 使 用 的 方式 ， 以 及 影响 它 的 关键 因 
素 。 通 常 ， 程 序 员 必 须 在 实现 和 维护 程序 的 简单 性 与 它 的 运行 速度 之 间 做 出 权衡 。 在 算法 
级 上 ， 几 分 钟 就 能 编写 一 个 简单 的 插入 排序 ， 而 一 个 高 效 的 排序 算法 程序 可 能 需要 一 天 或 
更 长 的 时 间 来 实现 和 优化 。 在 代码 级 上 ， 许 多 低级 别 的 优化 往往 会 降低 程序 的 可 读 性 和 模 
块 性 ， 使 得 程序 容易 出 错 ， 并 且 更 难以 修改 或 扩展 。 对 于 在 性 能 重要 的 环境 中 反复 执行 的 
代码 ， 进 行 大 量 的 优化 会 比较 合适 。 一 个 挑战 就 是 尽管 做 了 大 量 的 变化 ， 但 还 是 要 维护 代 
码 一 定 程度 的 简洁 和 可 读 性 。 

我 们 描述 许多 提高 代码 性 能 的 技术 。 理 想 的 情况 是 ， 编 译 器 能 够 接受 我 们 编写 的 任何 
代码 ， 并 产生 尽 可 能 高 效 的 、 具 有 指定 行为 的 机 器 级 程序 。 现 代 编 译 器 采用 了 复杂 的 分 析 
和 优化 形式 ， 而 且 变 得 越 来 越 好 。 然 而 ， 即 使 是 最 好 的 编译 器 也 受到 妨碍 优化 的 因素 
(optimization blocker) 的 阻碍 ， 妨 碍 优化 的 因素 就 是 程序 行为 中 那些 严重 依赖 于 执行 环境 
的 方面 。 程 序 员 必 须 编写 容易 优化 的 代码 ， 以 帮助 编译 器 。 

程序 优化 的 第 一 步 就 是 消除 不 必要 的 工作 ， 让 代码 尽 可 能 有 效 地 执行 所 期 望 的 任务 。 
这 包括 消除 不 必要 的 函数 调用 、 条 件 测试 和 内 存 引 用 。 这 些 优化 不 依赖 于 目标 机 器 的 任何 
具体 属性 。 

为 了 使 程序 性 能 最 大 化 ， 程 序 员 和 编译 器 都 需要 一 个 目标 机 器 的 模型 ， 指 明 如 何 处 理 指 
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令 ， 以 及 各 个 操作 的 时 序 特 性 。 人 例如， 编译 器 必须 知道 时 序 信 息 ， 才 能 够 确定 是 用 一 条 乘法 
指令 ， 还 是 用 移 位 和 可 法 的 某 种 组 合 。 现 代 计 算 机 用 复杂 的 技术 来 处 理 机 器 级 程序 ， 并 行 地 
执行 许多 指令 ， 执 行 顺序 还 可 能 不 同 于 它们 在 程序 中 出 现 的 顺序 。 程 序 员 必 须 理解 这 些 处 理 
需 是 如 何 工作 的 ， 从 而 调整 他 们 的 程序 以 获得 最 大 的 速度 。 基 于 Intel 和 AMD 处 理 器 最 近 的 
设计 ， 我 们 提出 了 这 种 机 器 的 一 个 高 级 模型 。 我 们 还 设计 了 一 种 图 形 数 据 流 (data-flow) 表 示 
法 ， 可 以 使 处 理 器 对 指令 的 执行 形象 化 ， 我 们 还 可 以 利用 它 预 测 程序 的 性 能 。 

了 解 了 处 理 需 的 运作 ， 我 们 就 可 以 进行 程序 优化 的 第 二 步 ， 利 用 处 理 器 提供 的 指令 级 并 
行 (instruction-level parallelism) 能 力 ， 同 时 执行 多 条 指令 。 我 们 会 讲述 几 个 对 程序 的 变化 ， 降 
低 一 个 计算 的 不 同 部 分 之 间 的 数据 相关 ， 增 加 并 行 度 ， 这 样 就 可 以 同时 执行 这 些 部 分 了 。 

我 们 以 对 优化 大 型 程序 的 问题 的 讨论 来 结束 这 一 章 。 我 们 描述 了 代码 剖析 程序 (profi- 
ler) 的 使 用 ， 代 码 放 析 程序 是 测量 程序 各 个 部 分 性 能 的 工具 。 这 种 分 析 能 够 帮助 找到 代码 
中 低 效率 的 地 方 ， 并 且 确 定 程 序 中 我 们 应 该 着 重 优 化 的 部 分 。 

在 本 草 的 描述 中 ， 我 们 使 代码 优化 看 起 来 像 按照 某 种 特殊 顺序 ， 对 代码 进行 一 系列 转 
换 的 简单 线性 过 程 。 实 际 上 ， 这 项 工作 远 非 这 么 简单 。 需 要 相当 多 的 试 错 法 试验 。 当 我 们 
进行 到 后 面 的 优化 阶段 时 ， 尤 其 是 这 样 ， 到 那 时 ， 看 上 去 很 小 的 变化 会 导致 性 能 上 很 大 的 
变 人 化。 相反， 一 些 看 上 去 很 有 希望 的 技术 被 证 明 是 无 效 的 。 正 如 后 面 的 例子 中 会 看 到 的 那 
样 ， 要 确切 解释 为 什么 某 段 代码 序列 具有 特定 的 执行 时 间 ， 是 很 困难 的 。 性 能 可 能 依赖 于 
处 理 右 设计 的 许多 细节 特性 ， 而 对 此 我 们 所 知 其 少 。 这 也 是 为 什么 要 尝试 各 种 技术 的 变形 
和 组 合 的 男 一 个 原因 ，。 

人 研究 程序 的 汇编 代码 表示 是 理解 编译 需 以 及 产生 的 代码 会 如 何 运行 的 最 有 效 手 段 之 
一 。 仔 细 研 究 内 循环 的 代码 是 一 个 很 好 的 开端 ， 识 别 出 降 低 性 能 的 属性 ， 例 如 过 多 的 内 存 
引用 和 对 寄存 器 使 用 不 当 。 从 汇编 代码 开始 ， 我 们 还 可 以 预测 什么 操作 会 并 行 执行 ， 以 及 
它们 会 如 何 使 用 处 理 需 资源 。 正 如 我 们 会 看 到 的 ， 常 稼 通过 确认 关键 路 径 (critical path) 来 
决定 执行 一 个 循环 所 需要 的 时 间 ( 或 者 说 ， 至 少 是 一 个 时 间 下 界 ) 。 所 谓 关 键 路 径 是 在 循环 
的 反复 执行 过 程 中 形成 的 数据 相关 链 。 然 后 ,我 们 会 回 过 头 来 修改 源 代码 ， 试 着 控制 编译 
器 使 之 产生 更 有 效率 的 实现 。 

大 多 数 编译 带 ， 包 括 GCC， 一 直 都 在 更 新 和 改进 ， 特 别 是 在 优化 能 力 方 面 。 一 个 很 
有 用 的 策略 是 只 重 写 程 序 到 编译 器 由 此 就 能 产生 有 效 代码 所 需要 的 程度 就 好 了 。 这 样 ， 能 
尽量 避免 损害 代码 的 可 读 性 、 模 块 性 和 可 移植 性 ， 就 好 像 我 们 使 用 的 是 具有 最 低能 力 的 编 
译 怖 。 同 样 ， 通 过 测量 值 和 检查 生成 的 汇编 代码 ， 反 复 修 改 源 代码 和 分 析 它 的 性 能 是 很 有 
帮助 的 。 

对 于 新 手 程序 员 来 说 ， 不 断 修 改 源 代码 ， 试 图 欺骗 编译 占 产 生 有 效 的 代码 ， 看 起 来 很 
奇怪 ， 但 这 确实 是 编写 很 多 高 性 能 程序 的 方式 。 比 较 于 男 一 种 方法 一 一 用 汇编 语言 写 代 
码 ， 这 种 间接 的 方法 具有 的 优点 是 : 虽然 性 能 不 一 定 是 最 好 的 ， 但 得 到 的 代码 仍然 能 够 在 
其 他 机 器 上 运行 。 


5.1 优化 编译 器 的 能 力 和 局 限 性 


现代 编译 需 运 用 复杂 精细 的 算法 来 确定 一 个 程序 中 计算 的 是 什么 值 ， 以 及 它们 是 被 如 
何 使 用 的 。 然 后 会 利用 一 些 机 会 来 简化 表达 式 ， 在 几 个 不 同 的 地 方 使 用 同一 个 计算 ， 以 及 
降低 一 个 给 定 的 计算 必须 被 执行 的 次 数 。 大 多 数 编译 器 ， 包 括 GCC， 向 用 户 提 供 了 一 些 
对 它们 所 使 用 的 优化 的 控制 。 就 像 在 第 3 章 中 讨论 过 的 ， 最 简单 的 控制 就 是 指定 优化 级 
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别 。 例 如 ， 以 命令 行 选项 “-0g” 调 用 GCC 是 让 GCC 使 用 一 组 基本 的 优化 。 以 选项 “- 
01” 或 更 高 (如 “-02” 或 “-03”) 调 用 GCC 会 让 它 使 用 更 大 量 的 优化 。 这 样 做 可 以 进一步 
提高 程序 的 性 能 ， 但 是 也 可 能 增加 程序 的 规模 ， 也 可 能 使 标准 的 调试 工具 更 难 对 程序 进行 
调试 。 我 们 的 表述 ， 虽 然 对 于 大 多 数 使 用 GCC 的 软件 项 目 来 说 ， 优 化 级 别 -02 已 经 成 为 
了 被 接受 的 标准 ， 但 是 还 是 主要 考虑 以 优化 级 别 -ol 编译 出 的 代码 。 我 们 特意 限制 了 优化 
级 别 ， 以 展示 写 C 语言 图 数 的 不 同方 法 如 何 影响 编译 器 产生 代码 的 效率 。 我 们 会 发 现 可 以 
写 出 的 C 代码 ， 即 使 用 -ol 选项 编译 得 到 的 性 能 ， 也 比 用 可 能 的 最 高 的 优化 等 级 编译 一 个 
更 原始 的 版 本 得 到 的 性 能 好 。 

编译 需 必 须 很 小 心地 对 程序 只 使 用 安全 的 优化 ， 也 就 是 说 对 于 程序 可 能 遇 到 的 所 有 可 
能 的 情况 ， 在 C 语言 标准 提供 的 保证 之 下 ， 优 化 后 得 到 的 程序 和 未 优化 的 版 本 有 一 样 的 行 
为 。 限 制 编译 器 只 进行 安全 的 优化 ， 消 除了 造成 不 布 望 的 运行 时 行为 的 一 些 可 能 的 原因 ， 
但 是 这 也 意味 着 程序 员 必须 花费 更 大 的 力气 写 出 编译 器 能 够 将 之 转换 成 有 效 机 需 代 码 的 程 
序 。 为 了 理解 决定 一 种 程序 转换 是 否 安全 的 难度 ， 让 我 们 来 看 看 下 面 这 两 个 过 程 : 


void twiddlei(long *xp, long *yp) 


1 

" 

3 *XPp += *yp; 

4 *Xp 十 = *yp; 

ss # 

6 

7 void twiddle2(long *xp, long *yp) 
& 

9 *Xp 十 = 2* *yp; 

10 } 


乍 一 看 ， 这 两 个 过 程 似乎 有 相同 的 行为 。 它 们 都 是 将 存储 在 由 指针 yp 指示 的 位 置 处 
的 值 两 次 加 到 指针 xp 指示 的 位 置 处 的 值 。 另 一 方面 ， 困 数 twiddle2 效率 更 高 一 些 。 它 
只 要 求 3 次 内 存 引 用 ( 读 *xp， 读 *yp， 写 *xp)， 而 twiddlel 需要 6 次 (2 次 读 *xp，2 次 读 
*yp，2 次 写 *xp)。 因 此 ， 如 果 要 编译 器 编译 过 程 twiddlel， 我 们 会 认为 基于 twiddle2 
执行 的 计算 能 产生 更 有 效 的 代码 。 

不 过 ， 考 虑 xp 等 于 yp 的 情况 。 此 时 ， 因 数 twiaddlel 会 执行 下 面 的 计算 : 


3 *Xp += *Xxp; /* Double value at xp */ 
4 *#XP += *Xxp; /* Double Value at xp */ 

结果 是 xp 的 值 增 加 4 售 。 男 一 方面 ,函数 twiddle2 会 执行 下 面 的 计算 : 
9 *xp += 2* *xp; /* Triple value at xp */ 


结果 是 xp 的 值 增加 3 倍 。 编 译 器 不 知道 twidqlel 会 如 何 被 调用 ， 因 此 它 必须 假设 参数 xp 
和 yp 可 能 会 相等 。 因 此 ， 它 不 能 产生 twiddle2 风格 的 代码 作为 twiddlel 的 优化 版 本 。 

这 种 两 个 指针 可 能 指向 同一 个 内 存 位 置 的 情况 称 为 内 存 别 名 使 用 (memory aliasing) 。 
在 只 执行 安全 的 优化 中 ,编译 器 必须 假设 不 同 的 指针 可 能 会 指向 内 存 中 同一 个 位 置 。 再 看 
一 个 例子 ， 对 于 一 个 使 用 指针 变量 p 和 的 程序 ， 考 虑 下 面 的 代码 序列 : 


X = 1000; y = 3000; 

*q = yi  /* 3000 */ 

*p = xXx; /* 1000 */ 

tl = *q; /* 1000 or 3000 */ 
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tl 的 计算 值 依 赖 于 指针 p 和 q 是 和 否 指向 内 存 中 同一 个 位 置 一 一 如 果 不 是 ，tl 就 等 于 
3000， 但 如 果 是 ，t1 就 等 于 1000。 这 造成 了 一 个 主要 的 妨碍 优化 的 因素 ， 这 也 是 可 能 严 
重 限制 编译 右 产 生 优 化 代码 机 会 的 程序 的 一 个 方面 。 如 果 编 译 器 不 能 确定 两 个 指针 是 否 指 
回 同 一 个 位 置 ， 就 必须 假设 什么 情况 都 有 可 能 ， 这 就 限制 了 可 能 的 优化 策略 。 

区 练习 题 5.1 下 面 的 问题 说 明了 内 存 别名 使 用 可 能 会 导致 意 想不到 的 程序 行为 的 方 

式 。 考 虑 下 面 这 个 交换 两 个 值 的 过 程 : 


/* Swap Value x at xp with Value y at yp */ 


1 

2 void swap(long *xp, long *yp) 

3 

4 *Xp = *Xp + *yp; /* XxX+y */ 
5 *yp = *Xxp 一 *yp; /* x+y-y = XxX */ 
6 *Xxp = *Xp 一 *yp; /* X+y-X = 了 */ 
间 汉 


如 果 调 用 这 个 过 程 时 xp 等 于 yp， 会 有 什么 样 的 效果 ? 
第 二 个 妨碍 优化 的 因素 是 函数 调用 。 作 为 一 个 示例 ， 考 虑 下 面 这 两 个 过 程 
long £0; 


long funci() { 
Peturn Lu + Ey + EN + 


long func2() { 


1 
2 
3 
4 
S 
国 
六 
8 return 4*f(); 
9 


} 


最 初 看 上 去 两 个 过 程 计 算 的 都 是 相同 的 结果 ,但 是 func2 只 调用 £ 一 次 ， 而 funcl 
调用 {四 次 。 以 funcl 作为 源 代码 时 ， 会 很 想 产 生 func2 风格 的 代码 。 
不 过 ， 考 虑 下 面 £ 的 代码 : 


long counter = 0; 


y 
2 

3 long f() { 
4 return counter++ |; 
5 


} 


这 个 函数 有 个 副作用 一 一 它 修改 了 全 局 程序 状态 的 一 部 分 。 改 变调 用 它 的 次 数 会 改变 
程序 的 行为 。 特 别 地 ， 假 设 开 始 时 全 局 变量 counter 都 设置 为 0， 对 funcl 的 调用 会 返回 
0 十 1 十 2 十 3 二 6， 而 对 func2 的 调用 会 返回 4。0 王 0。 

大 多 数 编译 需 不 会 试图 判断 一 个 图 数 是 否 没 有 副作用 ， 如 果 没 有 ， 就 可 能 被 优化 成 像 
func2 中 的 样子 。 相 反 ， 编 译 硕 会 假设 最 糟 的 情况 ， 并 保持 所 有 的 函数 调用 不 变 。 


ES 于 月 肌 联 夯 玩 秋 闹 估 龙 画 站 调用 

包含 函数 调用 的 代码 可 以 用 一 个 称 为 内 联 函 数 替 换 (inline substitution， 或 者 简称 
“内 联 (inlining)”) 的 过 程 进行 优化 ， 此 时 ， 将 函数 调用 替换 为 函数 体 。 例 如 ， 我 们 可 以 
通过 替换 掉 对 函数 王 的 四 次 调用 ， 展 开 funcl 的 代码 ， 

1 /* Result of inlining f in funci */ 


2 long funciin() { 
3 long t = counter++; /* +0 */ 
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4 t += counter++; /* +1 */ 
七 += countert++: /* 十 2 */ 
6 t += Counter+t+; /* +3 */ 
7 return t; 

i : 


这 样 的 转换 既 减 少 了 函数 调用 的 开销 ， 也 允许 对 展开 的 代码 做 进一步 优化 。 例 如 ， 编 
译 器 可 以 统一 funclin 中 对 全 局 变量 counter 的 更 新 ， 产 生 这 个 函数 的 一 个 优化 版 本 :; 


/* Optimization of inlined code */ 


] 

2 long funclopt() { 

3 long t = 4 * counter + 6; 
4 counter += 4; 

5 return t; 

Gr 站 


对 于 这 个 特定 的 函数 王 的 定义 ， 上 述 代 码 忠 实地 重 现 了 funcl 的 行为 。 

GCC 的 最 近 版 本 会 尝试 进行 这 种 形式 的 优化 ， 要 么 是 被 用 命令 行 选项 “-finline” 
指示 时 ， 要 么 是 使 用 优化 等 级 -01 或 者 更 高 的 等 级 时 。 遗 憾 的 是 ，GCC 只 尝试 在 单个 文 
件 中 定义 的 函数 的 内 联 。 这 就 意味 着 它 将 无 法 应 用 于 常见 的 情况 ， 即 一 组 库 函 数 在 一 个 
文件 中 被 定义 ， 却 被 其 他 文件 肉 的 函数 所 调用 。 

在 某 些 情况 下 ， 最 好 能 阻 直 编译 器 执行 内 联 替 换 。 一 种 情况 是 用 符号 调试 器 来 评估 代 
码 ， 比 如 GDB， 如 3.10.2 节 描述 的 一 样 。 如 果 一 个 函数 调用 已 经 用 内 联 替 换 优 化 过 了 ， 那 么 
任何 对 这 个 调用 进行 追踪 或 设置 断 点 的 尝试 都 会 失败 。 还 有 一 种 情况 是 用 代码 剖析 的 方式 来 
评估 程序 性 能 ， 如 5.14.1 节 讨论 的 一 样 。 用 内 联 替换 消除 的 函数 调用 是 无 法 被 正确 剖析 的 。 


在 各 种 编译 器 中 ， 就 优化 能 力 来 说 ，GCC 被 认为 是 胜任 的 ， 但 是 并 不 是 特别 突出 。 
它 完成 基本 的 优化 ， 但 是 它 不 会 对 程序 进行 更 加 “有 进取 心 的 ”编译 器 所 做 的 那 种 激进 变 
换 。 因 此 ， 使 用 GCC 的 程序 员 必 须 花 费 更 多 的 精力 ， 以 一 种 简化 编译 器 生成 高 效 代 码 的 
任务 的 方式 来 编写 程序 。 


5.2 表示 程序 性 能 

我 们 引入 度量 标准 每 元 素 的 周期 数 (Cycles Per Element，CPE) ， 作 为 一 种 表示 程序 性 
能 并 指导 我 们 改进 代码 的 方法 。CPE 这 种 度量 标准 帮助 我 们 在 更 细节 的 级 别 上 理解 迭代 程 
序 的 循环 性 能 。 这 样 的 度量 标准 对 执行 重复 计算 的 程序 来 说 是 很 适当 的 ， 例 如 处 理 图 像 中 
的 像素 ， 或 是 计算 和 矩阵 乘积 中 的 元 素 。 

处 理 器 活动 的 顺序 是 由 时 钟 控制 的 ， 时 钟 提 供 了 某 个 频率 的 规律 信号 ， 通 常用 千 兆 赫 
效 (GHz)， 即 十 亿 周 期 每 秒 来 表示 。 例 如 ， 当 表明 一 个 系统 有 “4GHz” 处 理 器 ， 这 表示 
处 理 器 时 钟 运行 频率 为 每 秒 4X10' 个 周期 。 每 个 时 钟 周 期 的 时 间 是 时 钟 频 率 的 倒数 。 通 常 
是 以 纳 秒 (nanosecond，1 纳 秒 等 于 10“ 秘 ) 或 皮 秒 (picosecond，1 皮 秒 等 于 10 于 秒 ) 为 单 
位 的 。 例 如 ， 一 个 4GHz 的 时 钟 其 周期 为 0. 25 纳 秒 ， 或 者 250 皮 秒 。 从 程序 员 的 角度 来 
看 ， 用 时 钟 周期 来 表示 度量 标准 要 比 用 纳 秒 或 皮 秒 来 表示 有 帮助 得 多 。 用 时 钟 周期 来 表 
示 ， 度 量 值 表示 的 是 执行 了 多 少 条 指令 ， 而 不 是 时 钟 运行 得 有 多 快 。 

许多 过 程 含 有 在 一 组 元 素 上 和 迭代 的 循环 。 例 如 ， 图 5-1 中 的 函数 psuml 和 psum2 计算 
的 都 是 一 个 长 度 为 n 的 癌 量 的 前 置 和 (prefix sum) 。 对 于 向 量 上 = 人 ao，ar，…，a -ii)， 前 
置 和 和 亡 一 《poy 讽 ， “办 -1) 十 义 为 
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po = a 
p; =pii 二 ai, 志和 过 为 
/* Compute prefix sum of Vector a */ 


void psumi(float a[] float p[], long n) 
‘ 


long i; 

p[0] = a[0] ; 

for (i = 1; i < n; i++) 
p[i] = p[i=1] + al[i] ; 


} 


void psum2(float a[], float p[], long n) 
{ 
long 工 ; 
p[0] = a[0] ; 
for (i = 1:; i < n-1i; i+=2) { 
float mid_val = pl[li-1] + alil]; 
pLi] mid_val; 
[24] mid_val + al[i+1]; 
} 


/* For even n, finish remaining element */ 


4 用 人 重 区 .二 
pli] = p[ 主 = 二 ] + a[il]; 





前 置 和 函数 。 这 些 函 数 提供 了 我 们 如 何 表 示 程 序 性 能 的 示例 


(Sy 


函数 psuml 每 次 迭代 计算 结果 向 量 的 一 个 元 素 。 第 二 个 函数 使 用 循环 展开 (loop un- 
rolling) 的 技术 ， 每 次 迭代 计算 两 个 元 素 。 本 章 后 面 我 们 会 探讨 循环 展开 的 好 处 。( 关 于 分 


析 和 优化 前 置 和 计算 的 内 容 请 参见 练习 题 5. 11、5. 12 和 家 庭 作业 5. 19 。) 


这 样 一 个 过 程 所 需要 的 时 间 可 以 用 一 个 常数 加 上 一 个 与 被 处 理 元 系 个 数 成 正比 的 因 于 
来 描述 。 例 如 ， 图 5-2 是 这 两 个 函数 需要 的 周期 数 关 于 nn 的 取 值 范围 图 。 使 用 最 小 二 乘 拟 


2500 


图 5-2 前 置 和 函数 的 性 能 。 两 条 线 的 斜率 表明 每 元 素 的 周期 数 (CPE) 的 值 


psuml 
Slope = 9.0 
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合 (least squares fit) ， 我 们 发 现 ，psuml 和 psum2 的 运行 时 间 ( 用 时 钟 周 期 为 单位 ) 分 别 近 
似 于 等 式 368 十 9. 0n 和 368 十 6. 0n。 这 两 个 等 式 表 明 对 代码 计时 和 初始 化 过 程 、 准 备 循环 
以 及 完成 过 程 的 开销 为 368 个 周期 加 上 每 个 元 素 6. 0 或 9.0 周期 的 线性 因子 。 对 于 较 大 的 
n 的 值 (比如 说 大 于 200)， 运 行 时 间 就 会 主要 由 线性 因子 来 决定 。 这 些 项 中 的 系数 称 为 每 
元 素 的 周期 数 (简称 CPE) 的 有 效 值 。 注 意 ， 我 们 更 愿意 用 每 个 元 素 的 周期 数 而 不 是 每 次 循环 
的 周期 数 来 度量 ， 这 是 因为 像 循环 展开 这 样 的 技术 使 得 我 们 能 够 用 较 少 的 循环 完成 计算 ， 而 
我 们 最 终 关 心 的 是 ， 对 于 给 定 的 回 量 长 度 ， 程 序 运行 的 速度 如 何 。 我 们 将 精力 集中 在 减 小 计 
算 的 CPE 上 。 根 据 这 种 度量 标准 ，psum2 的 CPE 为 6.0， 优 于 CPE 为 9. 0 的 psuml。 


国 河 什么 是 最 小 二 乘 拟 合 

对 于 一 个 数据 点 (ZX1，y1)，"…，(X，，y,) 的 集合 ， 我 们 常常 试图 和 画 一 条 线 ， 它 能 最 
接近 于 这 些 数 据 代表 的 义 一 Y 趋势 。 使 用 最 小 二 乘 拟 合 ， 寻 找 一 条 形 如 yy 一 mz 十 b 的 线 ， 
使 得 下 面 这 个 误差 度量 最 小 : 
E(m,b) = >》) (mzitb— y,)’ 


将 El(m，6) 分 别 对 m 和 b 求 导 ， 把 两 个 导数 函数 设置 为 0， 进 行 推 导 就 能 得 出 计算 m 和 
b 的 算法 。 


Ba 练习 题 5. 2 在 本 章 后 面 ， 我 们 会 从 一 个 函数 开始 ， 生 成 许多 不 同 的 变种 ， 这 些 变 种 
保持 函数 的 行为 ， 又 具有 不 同 的 性 能 特性 。 对 于 其 中 三 个 变种 ， 我 们 发 现 运 行 时 间 
(以 时 钟 周期 为 单位 ) 可 以 用 下 面 的 函数 近似 地 估计 : 
版 本 1: 60 十 35n 
版 本 2: 136 十 4n 
版 本 3; 157 十 1. 257 
每 个 版 本 在 n 取 什么 值 时 是 三 个 版 本 中 最 快 的 ? 记 住 ,，n 总 是 整数 。 


5.3 程序 示例 





为 了 说 明 一 个 抽象 的 程序 是 如 何 被 系统 len 再 0 1 2 ee 
地 转换 成 更 有 效 的 代码 的 ， 我们 将 使 用 一 个 aata| * J 


基于 图 5-3 所 示 问 量 数据 结构 的 运行 示例 。 同 


= 图 5-3 向 量 的 抽象 数据 类 型 。 向 量 由 头 信息 
量 由 两 个 内 存 块 表示 : 头 部 和 数据 数组 。 头 加 上 指定 长 度 的 数组 来 表示 
部 是 一 个 声明 如 下 的 结构 : 


code/opt/vec.h 
1 /* Create abstract data type for Vector */ 
2 typedef struct 1 
3 long len; 
4 data_t *data; 
5 上 vec_rec, *vec_ptr; 
code/opt/vec.h 


这 个 声明 用 aata 七 来 表示 基本 元 素 的 数据 类 型 。 在 测试 中 ， 我 们 度量 代码 对 于 整数 (C 语 
言 的 int 和 long) 和 浮 点 数 (C 语言 的 float 和 double) 数 据 的 性 能 。 为 此 ， 我 们 会 分 别 
为 不 同 的 类 型 声明 编译 和 运行 程序 ， 就 像 下 面 这 个 例子 对 数据 类 型 1ong 一 样 : 
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typedef Long data_t; 


我 们 还 会 分 配 一 个 len 个 data 七 类 型 对 象 的 数组 ， 来 存放 实际 的 向 量 元 素 。 

图 5-4 给 出 的 是 一 些 生 成 向 量 、 访 问 疝 量 元 素 以 及 确定 问 量 长 度 的 基本 过 程 。 一 个 值 
得 注意 的 重要 特性 是 回 量 访问 程序 get vec _ element， 它 会 对 每 个 向 量 引 用 进行 边界 检 
查 。 这 段 代 码 类 似 于 许多 其 他 语言 (包括 Java) 所 使 用 的 数组 表示 法 。 边 界 检查 降低 了 程序 
出 错 的 机 会 ， 但 是 它 也 会 减缓 程序 的 执行 。 


code/opt/Vec.c 


/* Create vector of specified length */ 
vec_ptr new_vec(long len) 


1 


} 


/水 
* Retrieve Vector element and store at dest . 
* Return 0 (out of bounds) or 1 (successful) 


/* Allocate header structure */ 
vec_ptr result = (vec_ptr) malloc(sizeof (vec_rec)); 
data_t *data = NULL ; 
if (!result) 
return NULL; /* Couldn't allocate storage */ 
result->len = len; 
/* Allocate array */ 
if (len > 0) 
data = (data_t *)calloc(len, sizeof (data_t)); 
if (ldata) { 
free((void *) result); 
return NULL; /* Couldn't allocate storage */ 
} 
} 
/* Data will either be NULL or allocated array */ 
result->data = data; 
return result; 


int get_vec_element(vec_ptr v, long index, data_t *dest) 


{ 


} 


if (index < 0 || index >= v->len) 
return 0; 

*dest = v->datal[lindex]; 

return 1; 


/* Return length of vector */ 
long vec_length(vec_ptr TV) 


{ 


} 


图 5-4 


return v->len; 


code/opt/vec.c 


问 量 抽象 数据 类 型 的 实现 。 在 实际 程序 中 ， 数 据 类 型 data 七 被 声明 为 
int、long、float 或 double 
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作为 一 个 优化 示例 ， 考 虑 图 5-5 中 所 示 的 代码 ， 它 使 用 某 种 运算 ， 将 一 个 向 量 中 所 有 
的 元 素 合 并 成 一 个 值 。 通 过 使 用 编译 时 常数 IDENT 和 OP 的 不 同 定义 ， 这 段 代 码 可 以 重 
编译 成 对 数据 执行 不 同 的 运算 。 特 别 地 ， 使 用 声明 : 


#define IDENT 0 
#define OP + 


它 对 向 量 的 元 素 求 和 。 使 用 声明 : 
#define IDENT 1 
#define OP * 


它 计 算 的 是 向 量 元 素 的 乘积 。 


/* Implementation with maximum use of data abstraction */ 
void combinel(vec_ptr v, data t *dest) 
{ 


long i; 


*dest = IDENT; 

for (i = 0; i < vec_length(v); i++) 1{ 
data_t val; 
get_vec_element(v, i, &val); 
*dest = *dest OP val; 


1 
2 
3 
4 
5 
6 
区 
8 





图 5-5 合并 运算 的 初始 实现 。 使 用 基本 元 素 IDENT 和 合并 运算 OP 的 不 同 声明 ， 
我 们 可 以 测量 该 函数 对 不 同 运算 的 性 能 


在 我 们 的 讲述 中 ， 我 们 会 对 这 段 代 码 进 行 一 系列 的 变化 ， 写 出 这 个 合并 函数 的 不 同 版 本 。 
为 了 评估 性 能 变化 ， 我 们 会 在 一 个 具有 Intel Core 17 Haswell 人 处理 器 的 机 器 上 测量 这 些 浮 数 的 
CPE 性 能 ， 这 个 机 器 称 为 参考 机 。3.1 节 中 给 出 了 一 些 有 关 这 个 处 理 器 的 特性 。 这 些 测量 值 刻 
画 的 是 程序 在 某 个 特定 的 机 右上 的 性 能 ， 所 以 在 其 他 机 器 和 编译 器 组 合 中 不 保证 有 同等 的 性 能 。 
不 过 ， 我 们 把 这 些 结果 与 许多 不 同 编译 器 /处 理 器 组 合 上 的 结果 做 了 比较 ， 发 现 也 非常 相似 。 

我 们 会 进行 一 组 变换 ， 发 现 有 很 多 只 能 带 来 很 小 的 性 能 提高 ， 而 其 他 的 能 带 来 更 巨大 
的 效果 。 确 定 该 使 用 哪些 变换 组 合 确实 是 编写 快速 代码 的 “魔术 (black art)”。 有 些 不 能 
提供 可 测量 的 好 处 的 组 合 确 实 是 无 效 的 ， 然 而 有 些 组 合 是 很 重要 的 ， 它 们 使 编译 髓 能 够 进 
一 步 优 化 。 根 据 我 们 的 经 验 ， 最 好 的 方法 是 实验 加 上 分 析 : 反复 地 尝试 不 同 的 方法 ， 进 行 
测量 ， 并 检查 汇编 代码 表示 以 确定 底层 的 性 能 瓶颈 。 

作为 一 个 起 点 ， 下 表 给 出 的 是 combinel 的 CPE 度量 值 ， 它 运行 在 我 们 的 参考 机 上 ， 
尝试 了 操作 (加 法 或 乘法 ) 和 数据 类 型 (长 整数 和 双 精 度 浮 点 数 ) 的 不 同 组 合 。 使 用 多 个 不 同 
的 程序 ， 我 们 的 实验 显示 32 位 整数 操作 和 64 位 整数 操作 有 相同 的 性 能 ， 除 了 涉及 除法 操 
作 的 代码 之 外 。 同 样 ， 对 于 操作 单 精 度 和 双 精 度 浮 点 数据 的 程序 ， 其 性 能 也 是 相同 的 。 因 
此 在 表 中 ， 我们 将 只 给 出 整数 数据 和 浮 点 数据 各 目的 结果 。 


combinel 抽象 的 未 优化 的 22. 68 20. 02 19. 98 20. 18 
抽象 的 -01 10, 12 10. 12 10. 17 11. 14 





combinel 
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可 以 看 到 测量 值 有 些 不 太 精 确 。 对 于 整数 求 和 的 CPE 数 更 像 是 23.00， 而 不 是 
22. 68; 对 于 整数 乘积 的 CPE 数 则 是 20. 0 而 非 20. 02。 我 们 不 会 “捏造 ”数据 让 它们 看 起 
来 好 看 一 点 儿 ， 只 是 给 出 了 实际 获得 的 测量 值 。 有 很 多 因素 会 使 得 可 靠 地 测量 某 段 代 码 序 
列 需 要 的 精确 周期 数 这 个 任务 变 得 复杂 。 检 查 这 些 数 字 时 ， 在 头脑 里 把 结果 向 上 或 者 癌 下 
取 整 几 百 分 之 一 个 时 钟 周期 会 很 有 帮助 。 

未 经 优化 的 代码 是 从 C 语言 代 码 到 机 器 代码 的 直接 翻译 ， 通 常 效率 明显 较 低 。 人 简单 地 
使 用 命令 行 选 项 “-01”， 就 会 进行 一 些 基 本 的 优化 。 正 如 可 以 看 到 的 ， 程 序 员 不 需要 做 什 
么 ， 就 会 显著 地 提高 程序 性 能 一 一 超过 两 个 数量 级 。 通 常 ， 养 成 至 少 使 用 这 个 级 别 优 化 的 
习惯 是 很 好 的 。( 使 用 -og 优化 级 别 能 得 到 相似 的 性 能 结果 。) 在 剩 下 的 测试 中 ， 我 们 使 用 
-01 和 -02 级 别 的 优化 来 生成 和 测量 程序 。 


5.4 消除 怎 环 的 低 效 率 

可 以 观察 到 ， 过 程 combinel 调用 函数 vec length 作为 for 循环 的 测试 条 件 ， 如 
图 5-5 所 示 。 回 想 关 于 如 何 将 含有 循环 的 代码 翻译 成 机 器 级 程序 的 讨论 ( 见 3. 6.7 闻 )， 每 
次 循环 迭代 时 都 必须 对 测试 条 件 求 值 。 另 一 方面 ， 向 量 的 长 度 并 不 会 随 着 循环 的 进行 而 改 
变 。 因 此 ， 只 需 计算 一 次 向 量 的 长 度 ， 然 后 在 我 们 的 测试 条 件 中 都 使 用 这 个 值 。 

图 5-6 是 一 个 修改 了 的 版 本 ， 称 为 combine2， 它 在 开始 时 调用 vec length， 并 将 结 
果 赋 值 给 局 部 变量 length。 对 于 某 些 数据 类 型 和 操作 ， 这 个 变换 明显 地 影响 了 茶 些 数据 
类 型 和 操作 的 整体 性 能 ， 对 于 其 他 的 则 只 有 很 小 甚至 没有 影响 。 无 论 是 哪 种 情况 ， 孝 需要 
这 种 变换 来 消除 这 个 低 效率 ， 这 有 可 能 成 为 答 试 进一步 优化 时 的 瓶颈 。 


/* Move call to vec_length out of loop */ 
void combine2(vec_ptr v, data_t *dest) 
2 

long 工 ; 

long length = Vec_lLength(Gv) ; 


*dest = IDENT; 

for (1 = O% 1 «< leongths tt) { 
data_t val; 
get_vec_element(v, i, &val); 
*dest = *dest OP val; 


1 
2 
o 
4 
和 
6 
7 
8 
9 
10 


wm hh 
wu NO 一 





图 5-6 改进 循环 测试 的 效率 。 通 过 把 对 vec_length 的 调用 移出 循环 测 
试 ， 我 们 不 再 需要 每 次 迭代 时 都 执行 这 个 函数 


combinel 抽象 的 -01 10,.12 10. 12 
combine2 移动 vec_length 7. 02 9. 03 9. 02 11. 03 
这 个 优化 是 一 类 常见 的 优化 的 一 个 例子 ， 称 为 代码 移动 (code motion)。 这 类 优化 包括 
识别 要 执行 多 次 (例如 在 循环 里 ) 但 是 计算 结果 不 会 改变 的 计算 。 因 而 可 以 将 计算 移动 到 代 
码 前 面 不 会 被 多 次 求 值 的 部 分 。 在 本 例 中 ， 我 们 将 对 vec length 的 调用 从 循环 内 部 移动 
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到 循环 的 前 面 。 

优化 编译 器 会 试 着 进行 代码 移动 。 不 幸 的 是 ， 就 像 前 面 讨 论 过 的 那样 ， 对 于 会 改变 在 
哪里 调用 电 数 或 调用 多 少 次 的 变换 ， 编 译 咒 通常 会 非常 小 心 。 它 们 不 能 可 靠 地 发 现 一 个 函 
数 是 否 会 有 副作用 ， 因 而 假设 郴 数 会 有 副作用 。 例 如 ， 如 果 vec length 有 某 种 副作用 ， 
那么 combinel 和 combine2 可 能 就 会 有 不 同 的 行为 。 为 了 改进 代码 ， 程 序 员 必须 经 常 帮 
助 编译 器 显 式 地 完成 代码 的 移动 。 

举 一 个 combinel 中 看 到 的 循环 低 效 率 的 极端 例子 ， 考 虑 图 5-7 中 所 示 的 过 程 low- 
erl。 这 个 过 程 模仿 几 个 学 生 的 函数 设计 ， 他 们 的 晒 数 是 作为 一 个 网 络 编程 项 目的 一 部 分 
交 上 来 的 。 这 个 过 程 的 目的 是 将 一 个 字符 串 中 所 有 大 写字 母 转 换 成 小 写字 母 。 这 个 大 小 写 
转换 涉及 将 “A” 到 “z” 范 围 内 的 字符 转换 成 “a” 到 “z” 范 围 内 的 字符 。 


/* Convert string to lowercase: slow */ 
void loweri(char *s) 
{ 


long 工 ; 


for (i = 0; i < strlen(s); i++) 
if (s[i] >= 'A' && s[i] <= '2Z') 
SL)] = (VA = "a 
} 


/* Convert string to lowercase: faster */ 
void lower2(char *s) 
{ 

long i; 

long len = strlen(s); 


for (i = 0; i < len; i++) 
if (s[i] Ss= A && s[i] <= ‘2Z*) 
s[i] == ('A' = 'a'): 


] 
2 
3 
4 
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6 
7 
8 
9 
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1 
16 
| Bs 
18 
19 


} 


/* Sample implementation of library function strlen */ 
/* Compute length of string */ 
size_t strlen(const char *s) 
t 
long length = 0; 
while (*s != '\0') + 
S++ ， 
length++; 
} 


return length; 





图 5-7 小 写字 母 转换 函数 。 两 个 过 程 的 性 能 差别 很 大 
对 库 函 数 strlen 的 调用 是 lowerl 的 循环 测试 的 一 部 分 。 虽 然 strlen 通常 是 用 特殊 


的 x86 字符 串 处 理 指 令 来 实现 的 ， 但 是 它 的 整体 执行 也 类 似 于 图 5-7 中 给 出 的 这 个 简单 版 
本 。 因 为 C 语言 中 的 字符 串 是 以 null 结尾 的 字符 序列 ，strlen 必须 一 步 一 步 地 检查 这 
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个 序列 ， 直 到 遇 到 nul1l 字符 。 对 于 一 个 长 度 为 n 的 字符 串 ，strlen 所 用 的 时 间 与 成 正 
比 。 因 为 对 lowerl 的 nn 次 迭代 的 每 一 次 部 会 调用 strlen， 所 以 lowerl 的 整体 运行 时 间 
是 字符 串 长 度 的 二 次 项 ， 正比 于 xn。 

如 图 5-8 所 示 ( 使 用 strlen 的 库 版 本 )， 这 个 函数 对 各 种 长 度 的 字符 串 的 实际 测量 值 
证 实 了 了 上述 分 析 。1lowerl 的 运行 时 间 曲 线 图 随 着 字符 串 长 度 的 增加 上 升 得 很 陡峭 (图 5-8a) 。 
5-8b 展示 了 7 个 不 同 长 度 字 符 串 的 运行 时 间 ( 与 曲线 图 中 所 示 的 有 所 不 同 )， 每 个 长 度 
都 是 2 的 究 。 可 以 观察 到 ， 对 于 lowerl 来 说 ， 字 符 串 长 度 每 增加 一 倍 ， 运 行 时 间 都 会 变 
为 原来 的 4 倍 。 这 很 明显 地 表明 运行 时 间 是 二 次 的 。 对 于 一 个 长 度 为 1048 576 的 字符 串 
来 说 ，lowerl 需要 超过 17 分 钟 的 CPU 时 间 。 


250 
OO 









0 100 000 200 000 300 000 400 000 500 000 
字符 串 长 度 
a) 
字符 串 长 度 
16 384 32 768 65 536 131 072 262 144 524 288 1 048 576 





lowerl 0.26 1.03 4.10 16.41 65.62 262.48 1 049.89 
lower2 0.0000 0.0001 0.0001 0.0003 0.0005 0.0010 0.0020 


b ) 


图 5-8 ”小 写字 母 转换 函数 的 性 能 比较 。 由 于 循环 结构 的 效率 比较 低 ， 初 始 代 码 lower1 
的 运行 时 间 是 二 次 项 的 。 修 改过 的 代码 lower2 的 运行 时 间 是 线性 的 

除了 把 对 strlen 的 调用 移出 了 循环 以 外 ， 图 5-7 中 所 示 的 lower2 与 lowerl 是 一 样 的 。 
做 了 这 样 的 变化 之 后 ， 性 能 有 了 显著 改善 。 对 于 一 个 长 度 为 1048 576 的 字符 串 ， 这 个 函数 只 
需要 2.0 毫秒 一 一 比 lowerl 快 了 500 000 多 倍 。 字 符 串 长 度 每 增加 一 倍 ， 运 行 时 间 也 会 增加 
一 倍 一 一 很 显然 运行 时 间 是 线性 的 。 对 于 更 长 的 字符 串 ， 和 运行 时 间 的 改进 会 更 大 。 

在 理想 的 世界 里 ， 编 译 器 会 认 出 循环 测试 中 对 strlen 的 每 次 调用 都 会 返回 相同 的 结 
果 ， 因 此 应 该 能 够 把 这 个 调用 移出 循环 。 这 需要 非常 成 熟 完 善 的 分 析 ， 因 为 strlen 会 检 
查 字 符 串 的 元 素 ， 而 随 着 Lowerl 的 进行 ， 这 些 值 会 改变 。 编 译 咒 需要 探查 ， 即 使 字符 串 
中 的 字符 发 生 了 改变 ,但 是 没有 字符 会 从 非 零 变 为 零 ， 或 是 反 过 来 ， 从 零 变 为 非 零 。 即 使 
是 使 用 内 联 函 数 ， 这 样 的 分 析 也 远 远 超出 了 最 成 熟 完善 的 编译 器 的 能 力 ， 所 以 程序 员 必 须 
自己 进行 这 样 的 变换 。 

这 个 示例 说 明了 编程 时 一 个 常见 的 问题 ,一 个 看 上 去 无 足 轻 重 的 代码 片断 有 隐藏 的 渐 
近 低 效率 (asymptotic inefficiency)。 人 们 可 不 希望 一 个 小 写字 母 转 换 消 数 成 为 程序 性 能 的 
限制 因素 。 通 和 常 ， 会 在 小 数据 集 上 测试 和 分 析 程 序 ， 对 此 ，1Lowetrl 的 性 能 是 足够 的 。 不 
过 ， 当 程序 最 终 部 署 好 以 后 ， 过 程 完全 可 能 被 应 用 到 一 个 有 100 万 个 字符 的 串 上 。 突 然 ， 
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这 段 无 危险 的 代码 变 成 了 一 个 主要 的 性 能 瓶颈 。 相 比较 而 言 ，Lower2 的 性 能 对 于 任意 长 
度 的 字符 串 来 说 午 是 足够 的 。 大 型 编程 项 目 中 出 现 这 样 问题 的 故事 比比 车 是 。 一 个 有 经 验 
的 程序 员工 作 的 一 部 分 就 是 避免 引 和 这样 的 渐 近 低 效 率 。 
让 练习 题 5.3 考虑 下 面 的 函数 : 

long min(long x, long y) { return x <y?x: yi 上 

long max(long x, long y) { return x <y?y': x; 上 

void incr(long *xp, long v) { *xp += Vi 上 

long square(long x) { return x*x; 上 


下 面 三 个 代码 片断 调用 这 些 函 数 : 
A. for (i = min(x, y); i < max(x, y); incr(&i, 1)) 
t += square(i); 
B. for (i = max(x, 一 13 1 3= Tin(x, Y); incr(&i,, 14)) 
t += square(i); 
C. long low = min(x, y); 
long high = max(x, y); 
Eor (Et =: low; i < high; incr(&i, 4)) 
t += square(i); 
假设 x 等 于 10， 而 y 等 于 100。 填 写 下 表 ， 指 出 在 代码 片断 A 一 C 中 4 个 函数 每 个 被 
调用 的 次 数 : 





5.5 减少 过 程 调 用 

像 我 们 看 到 过 的 那样 ， 过 程 调 用 会 带 来 开销 ， 而 且 妨 碍 大 多 数 形式 的 程序 优化 。 从 
combine2 的 代码 ( 见 图 5-6) 中 我 们 可 以 看 出 ， 每 次 循环 迭代 都 会 调用 get_vec_ element 
来 获取 下 一 个 向 量 元 素 。 对 每 个 向 量 引 用 ， 这 个 消 数 要 把 向 量 索 引 i 与 循环 边界 做 比较 ， 
很 明显 会 造成 低 效率 。 在 处 理 任意 的 数组 访问 时 ， 边 界 检查 可 能 是 个 很 有 用 的 特性 ， 但 是 
对 combine2 代码 的 简单 分 析 表 明 所 有 的 引用 都 是 合法 的 。 

作为 奉 代 ， 假 设 为 我 们 的 抽象 数据 类 型 增加 一 个 函数 get vec start。 这 个 函数 返回 
数组 的 起 始 地 址 ， 如 图 5-9 所 示 。 然 后 就 能 写 出 此 图 中 combine3 所 示 的 过 程 ， 其 内 循环 
里 没有 函数 调用 。 它 没有 用 天 数 调用 来 获取 每 个 向 量 元 素 ， 而 是 直接 访问 数组 。 一 个 纯粹 
主义 者 可 能 会 说 这 种 变换 严重 损害 了 程序 的 模块 性 。 原 则 上 来 说 ， 向 量 抽象 数据 类 型 的 使 
用 者 甚至 不 应 该 需要 知道 向 量 的 内 容 是 作为 数组 来 存储 的 ， 而 不 是 作为 诸如 链表 之 类 的 某 
种 其 他 数据 结构 来 存储 的 。 比 较 实 际 的 程序 员 会 争论 说 这 种 变换 是 获得 高 性 能 结果 的 必要 


步骤 。 
浮 点 数 
函数 方法 
combine2 移动 vec_ length > 
combine3 直接 数据 访问 
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code/opt/vec.c 
1 data_t *get_vec_start(vec_ptr V) 
2 + 
3 return v->data; 
4 
code/opt/vec.c 
1 /* Direct access to vector data */ 
2 void combine3(vec_ptr v, data_t *dest) 
5 
4 long i; 
5 long length = vec_length(v); 
6 data_t *data = get_vec_start(v); 
7 
8 *dest = IDENT ; 
9 for (i = 0; i < length; i++) +{ 
10 *dest = *dest OP datal[il]; 
11 } 
i 上 


图 5-9 消除 循环 中 的 函数 调用 。 结 果 代 码 没 有 显示 性 能 提升 ， 但 是 它 有 其 他 的 优化 


令 人 吃惊 的 是 ， 性 能 没有 明显 的 提升 。 事 实 上 ， 整 数 求 和 的 性 能 还 略 有 下 降 。 显 然 ， 内 
循环 中 的 其 他 操作 形成 了 瓶颈 ， 限制 性 能 超过 调用 get vec elLement。 我 们 还 会 再 回 到 这 个 
图 数 ( 见 5. 11. 2 节 )， 看 看 为 什么 combine2 中 反复 的 边界 检查 不 会 让 性 能 更 差 。 而 现在 ， 我 
们 可 以 将 这 个 转换 视 为 一 系列 步骤 中 的 一 步 ， 这 些 步骤 将 最 终 产生 显著 的 性 能 提升 。 


5.6 消除 不 必要 的 内 存 引用 

combine3 的 代码 将 合并 运算 计算 的 值 累积 在 指针 dest 指定 的 位 置 。 通 过 检查 编译 
出 来 的 为 内 循环 产生 的 汇编 代码 ， 可 以 看 出 这 个 属性 。 在 此 我 们 给 出 数据 类 型 为 double， 
合并 运算 为 乘法 的 x86-64 代码 : 


TInner loop of combine3. data_t = double, OP = * 


dest in hrbx, data+i in %rdx, data+length ID Yrax 


1 yf i loop: 

2 vmovsd (hrbx), %xmmO Read product from dest 

3 vmulsd (hrdx), hxmmO0, hxmmO Multiply product by data[i] 
4 vmovsd %xmmO0, (%rbx) Store product at dest 

5 addq $8, hrdx Increment data+i 

6 cmpq hrax, hrdx Compare to datat+length 

7 jne iT If !=, goto loop 


在 这 段 循环 代码 中 ， 我 们 看 到 ， 指 针 dest 的 地 址 存放 在 寄存 器 %rbx 中 ， 它 还 改变 了 
代码 ， 将 第 i 个 数据 元 素 的 指针 保存 在 寄存 器 $rdx 中 ， 注 释 中 显示 为 data+i。 每 次 迭 
代 ， 这 个 指针 都 加 8。 循环 终止 操作 通过 比较 这 个 指针 与 保存 在 寄存 器 srax 中 的 数值 来 判 
断 。 我 们 可 以 看 到 每 次 迭代 时 ， 累 积 变 量 的 数值 都 要 从 内 存 读 出 再 写 人 到 内 存 。 这 样 的 读 
写 很 浪费 ， 因 为 每 次 迭代 开始 时 从 dest 读 出 的 值 就 是 上 次 迭代 最 后 写 人 的 值 。 

我 们 能 够 消除 这 种 不 必要 的 内 存 读 写 ， 按 照 图 5-10 中 combine4 所 示 的 方式 重 写 代 
码 。 引 入 一 个 临时 变量 acc， 它 在 循环 中 用 来 累积 计算 出 来 的 值 。 只 有 在 循环 完成 之 后 结 
果 才 存放 在 dest 中 。 正 如 下 面 的 汇编 代码 所 示 ， 编 译 髓 现在 可 以 用 寄存 器 %xmm0 来 保存 
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累积 值 。 与 combine3 中 的 循环 相 比 ， 我 们 将 每 次 迭代 的 内 存 操作 从 两 次 读 和 一 次 写 减少 
到 只 需要 一 次 读 。 
Inner loop of combine4. data_t = double, UP = * 


acc in Kxmm0, datat+i in hrdx, datatlength in Krax 


] L225: loop: 

2 vmulsd (%rdx), hxmmO0, %hxmmO Multiply acc by data[i] 
3 addq $8, %rdx Increment data+i 

4 cmpq hrax, hrdx Compare to datat+length 
3 jne .L25 If !=, goto loop 


/* Accumulate result in local variable */ 
void combine4(vec_ptr v, data_t *dest) 


{ 


long i; 
long length = vec_length(v) ; 
data_t *data = get_Vvec_start(V) ; 


data_t acc = IDENT 


for (i = 0; i < length; i++) 
acc = acc OP datal[i]. 
} 


*dest = acc; 





图 5-10 ”把 结果 累积 在 临时 变量 中 。 将 累积 值 存放 在 局 部 变量 acc( 累 积 器 (accumulator) 的 简写 ) 中 ， 
消除 了 每 次 循环 迭代 中 从 内 存 中 读 出 并 将 更 新 值 写 回 的 需要 


我 们 看 到 程序 性 能 有 了 显著 的 提高 ， 如 下 表 所 示 : 
combine3 直接 数据 访问 
combine4 累积 在 临时 变量 中 
所 有 的 时 间 改 进 范 围 从 2.2X 到 5.7Xx ， 整 数 加 法 情况 的 时 间 下 降 到 了 每 元 素 只 需 1. 27 个 
时 钟 周 期 。 
可 能 又 有 人 会 认为 编译 器 应 该 能 够 自动 将 图 5-9 中 所 示 的 combine3 的 代码 转换 为 在 寄 
存 器 中 累积 那个 值 ， 就 像 图 5-10 中 所 示 的 combine4 的 代码 所 做 的 那样 。 然 而 实际 上 ， 由 于 
内 存 别 名 使 用 ， 两 个 函数 可 能 会 有 不 同 的 行为 。 例 如 ， 考 虑 整数 数据 ， 运 算 为 乘法 ， 标 识 元 
素 为 1 的 情况 。 设 v= 二 [2，3，5j 是 一 个 由 3 个 元 素 组 成 的 向 量 ， 考 虑 下 面 两 个 男 数 调用 : 


combine3(v, get_vec_start(v) + 2) ; 
combine4(V，get_vec_start(v) + 2) ; 


也 就 是 在 向 量 最 后 一 个 元 素 和 存放 结果 的 目标 之 间 创 建 一 个 别名 。 那 么 ， 这 两 个 函数 的 执 
行 如 下 : 


镍 环 之 前 








combine3 [2, 3, 5] 医生 [2, 3, 6] [2, 3, 36] [2, 3, 36] 
combined 色素 司 [2, 3, 5] [2, 3, 5] [防守 到 [2, 3, 30] 
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正如 前 面 讲 到 过 的 ，combine3 将 它 的 结果 累积 在 目标 位 置 中 ， 在 本 例 中 ， 目 标 位 置 
就 是 向 量 的 最 后 一 个 元 素 。 因 此 ， 这 个 值 首 先 被 设置 为 1， 然后 设 为 2。1=2， 然 后 设 为 
3。2 王 6。 最 后 一 次 迭代 中 ， 这 个 值 会 乘 以 它 自己 ， 得 到 最 后 结果 36。 对 于 combine4 的 
情况 来 说 ， 直 到 最 后 向 量 都 保持 不 变 ， 结 束 之 前 ， 最 后 一 个 元 素 会 被 设置 为 计算 出 来 的 值 
le2 «3* 5=30., 

当然 ， 我 们 说 明 combine3 和 combine4 之 间 差 别 的 例子 是 人 为 设计 的 。 有 人 会 说 
combine4 的 行为 更 加 符合 也 数 描述 的 意图 。 不 垃 的 是 ， 编 译 器 不 能 判断 消 数 会 在 什么 情 
况 下 被 调用 ， 以 及 程序 员 的 本 意 可 能 是 什么 。 了 取而代之， 在 编译 combine3 时 ,保守 的 方 
a A pi 
区 练习 题 5.4 当 用 带 命 令 行 选项 “-02” 的 GCC 来 编译 combine3 时 ,得 到 的 代码 

CPE 性 能 远 好 于 使 用 -O01 时 的 : 





combine3 


combine3 


combined 


由 此 得 到 的 性 能 与 combine4 相当 ， 不 过 对 于 整数 求 和 的 情况 除外 ， 虽 然 性 能 已 
经 得 到 了 显著 的 提高 ， 但 还 是 低 于 combine4。 在 检查 编译 器 产生 的 汇编 代码 时 ， 我 
们 发 现 对 内 循环 的 一 个 有 趣 的 变化 : 

Inner loop of combine3. data_t = double, UP = *. Compiled -02 


dest in %rbx, data+i in Yrdx, datatlenpgth ID hrax 





Accumulated product in hxmmO 


1 L222: loop: 

2 vmulsd (%rdx), %xmmO0, %xmmO Multiply product by datali] 
3 addq $8, %rdx Increment data+i 

4 cmpq %rax, hrdx Compare to data+length 

5 vmovsd “xmm0, (%rbx) Store product at dest 

6 jne sL22 If !=, goto loop 


把 上 面 的 代码 与 用 优化 等 级 1 产生 的 代码 进行 比较 : 
Inner loop of combine3. data_t = double, OP = *, Compiled -01 
dest in %rbx, data+i iD Krdx, datatlength in hrax 


] , 工 工 7 : loop: 
2 vmovsd (%rbx), %hxmmO Read product from dest 
3 vmulsd (%rdx), “xmmO0, %xmmO Multiply product by datal[li] 
4 vmovsd “xmmO0, (%rbx) Store product at dest 
addq $8 ， %rdx Increment datat+i 
cmpq %rax, hrdx Compare to datatlength 
jne .L17 If !=, goto loop 


我 们 看 到 ， 除 了 指令 顺序 有 些 不 同 ,唯一 的 区 别 就 是 使 用 更 优化 的 版 本 不 含有 

vmovsd 指令 ， 它 实现 的 是 从 dest 指定 的 位 置 读数 据 ( 第 2 行 )。 

A. 寄存 器 %$xmm0 的 角色 在 两 个 循环 中 有 什么 不 同 ? 

B. 这 个 更 优化 的 版 本 忠实 地 实现 了 combine3 的 C 语 言 代 码 吗 (包括 在 dest 和 向 量 
数据 之 间 使 用 内 存 别 名 的 时 候 )? 
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C. 解释 为 什么 这 个 优化 保持 了 期 望 的 行为 ， 或 者 给 出 一 个 例子 说 明 它 产生 了 与 使 用 
较 少 优化 的 代码 不 同 的 结果 。 
使 用 了 这 最 后 的 变换 ， 至 此 ， 对 于 每 个 元 素 的 计算 ， 孝 只 需要 1. 25 一 5 个 时 钟 周期 。 
比 起 最 开始 采用 优化 时 的 9 一 11 个 周期 ， 这 是 相当 大 的 提高 了 。 现 在 我 们 想 看 看 是 什么 因 
素 在 制约 着 代码 的 性 能 ， 以 及 可 以 如 何 进一步 提高 。 


5. 7 理解 现代 处 理 希 


到 目前 为 止 ， 我 们 运用 的 优化 都 不 依赖 于 目标 机 器 的 任何 特性 。 这 些 优化 只 是 简单 
地 降低 了 过 程 调 用 的 开销 ， 以 及 消除 了 一 些 重 大 的 “妨碍 优化 的 因素 ”， 这 些 因 素 会 给 
优化 编译 器 造 成 困难 。 随 着 试图 进一步 提高 性 能 ， 必 须 考虑 利用 处 理 器 微 体 系 结构 的 优 
化 ， 也 就 是 处 理 器 用 来 执行 指令 的 底层 系统 设计 。 要 想 充 分 提高 性 能 ， 需 要 和 仔细 分 析 程 
序 ， 同 时 代码 的 生成 也 要 针对 目标 处 理 器 进行 调整 。 尽 管 如 此 ， 我 们 还 是 能 够 运用 一 些 
基本 的 优化 ， 在 很 大 一 类 处 理 器 上 产生 整体 的 性 能 提高 。 我 们 在 这 里 公布 的 详细 性 能 结 
果 ， 对 其 他 机 上 需 不 一 定 有 同样 的 效果 ， 但 是 操作 和 优化 的 通用 原则 对 各 种 各 样 的 机 器 都 
适用 。 

为 了 理解 改进 性 能 的 方法 ， 我们 需要 理解 现代 处 理 需 的 微 体 系 结构 。 由 于 大 量 的 品 
体 管 可 以 被 集成 到 一 块 世 片上， 现代 微 处 理 器 采用 了 复杂 的 硬件 ， 试 图 使 程序 性 能 最 大 
化 。 带 来 的 一 个 后 果 就 是 处 理 需 的 实际 操作 与 通过 观察 机 顺 级 程序 所 察觉 到 的 大 相 径 
庭 。 在 代码 级 上 ， 看 上 去 似乎 是 一 次 执行 一 条 指令 ， 每 条 指令 都 包括 从 寄存 器 或 内 存 取 
值 ， 执 行 一 个 操作 ， 并 把 结果 存 回 到 一 个 寄存 器 或 内 存 位 置 。 在 实际 的 处 理 器 中 ， 是 同时 
对 多 条 指令 求 值 的 ， 这 个 现象 称 为 指令 级 并 行 。 在 某 些 设计 中 ， 可 以 有 100 或 更 多 条 指令 
在 处 理 中 。 采 用 一 些 精 细 的 机 制 来 确保 这 种 并 行 执行 的 行为 ， 正 好 能 获得 机 器 级 程序 要 求 
的 顺序 语义 模型 的 效果 。 现 代 微 处 理 器 取得 的 了 不 起 的 功绩 之 一 是 : 它们 采用 复杂 而 奇异 
的 微 处 理 器 结构 ， 其 中 ， 多 条 指令 可 以 并 行 地 执行 ， 同 时 又 呈现 出 一 种 简单 的 顺序 执行 指 
令 的 表象 。 

虽然 现代 微 处 理 器 的 详细 设计 超出 了 本 书 讲 授 的 范围 ， 对 这 些微 处 理 需 运行 的 原则 有 
一 般 性 的 了 解 就 足够 能 够 理解 它们 如 何 实现 指令 级 并 行 。 我 们 会 发 现 两 种 下 界 描 述 了 程序 
的 最 大 性 能 。 当 一 系列 操作 必须 按照 严格 顺序 执行 时 ， 就 会 遇 到 延迟 界限 (latency 
bound) ， 因 为 在 下 一 条 指令 开始 之 前 ， 这 条 指令 必须 结束 。 当 代码 中 的 数据 相关 限制 了 处 
理 需 利用 指令 级 并 行 的 能 力 时 ， 延 妈 界 限 能 够 限制 程序 性 能 。 和 吞吐 量 界限 (throughpnut 
bound) 刻 画 了 处 理 器 功能 单元 的 原始 计算 能 力 。 这 个 界限 是 程序 性 能 的 终极 限制 。 


5.7.1 整体 操作 


图 5-11 是 现代 微 处 理 器 的 一 个 非常 简单 化 的 示意 图 。 我 们 假想 的 处 理 器 设计 是 不 太 
严格 地 基于 近期 的 Intel 处 理 堪 的 结构 。 这 些 处 理 器 在 工业 界 称 为 超标 量 (superscalar ) ， 
意思 是 它 可 以 在 每 个 时 钟 周期 执行 多 个 操作 ， 而 且 是 乱 序 的 (out-of-order) ， 意 恩 就 是 指令 
执行 的 顺序 不 一 定 要 与 它们 在 机 器 级 程序 中 的 顺序 一 致 。 整 个 设计 有 两 个 主要 部 分 ， 指令 
控制 单元 (Instruction Control Unit，ICU) 和 执行 单元 (Execution Unit，EU)。 前 者 负责 
从 内 存 中 读 出 指令 序列 ， 并 根据 这 些 指 令 序 列 生 成 一 组 针对 程序 数据 的 基本 操作 ; 而 后 者 
执行 这 些 操 作 。 和 第 4 章 中 研究 过 的 按 序 (in-order) 流 水 线 相 比 ， 乱 序 处 理 器 需要 更 大 、 
更 复杂 的 硬件 ， 但 是 它们 能 更 好 地 达到 更 高 的 指令 级 并 行 度 。 
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指令 控制 单元 


数据 高 速 级 存 





图 5-11 一 个 乱 序 处 理 器 的 框图 。 指 令 控制 单元 负责 从 内 存 中 读 出 指令 ， 并 产生 一 系列 基本 操 
作 。 然 后 执行 单元 完成 这 些 操作 ， 以 及 指出 分 支 预测 是 否 正 确 


ICU 从 指令 高 速 缓 存 (instruction cache) 中 读 取 指令 ， 指 令 高 速 缓存 是 一 个 特殊 的 高 
速 存 储 器 ， 它 包含 最 近 访 问 的 指令 。 通 常 ，ICU 会 在 当前 正在 执行 的 指令 很 早 之 前 取 指 ， 
这 样 它 才 有 足够 的 时 间 对 指令 译 码 ， 并 把 操作 发 送 到 EU。 不 过 ， 一 个 问题 是 当 程 序 遇 到 
分 支 ? 时 ， 程 序 有 两 个 可 能 的 前 进 方 向 。 一 种 可 能 会 选择 分 支 ， 控 制 被 传递 到 分 支 目 标 。 
另 一 种 可 能 是 ， 不 选择 分 文 ， 控 制 被 传递 到 指令 序列 的 下 一 条 指令 。 现 代 处 理 器 采用 了 一 
种 称 为 分 支 预 测 (branch prediction) 的 技术 ， 处 理 需 会 猜测 是 和 否 会 选择 分 支 ， 同 时 还 预测 
分 支 的 目标 地 址 。 使 用 投机 执行 (speculative execution) 的 技术 ， 处 理 器 会 开始 取出 位 于 它 
预测 的 分 支 会 跳 到 的 地 方 的 指令 ， 并 对 指令 译 码 ， 其 至 在 它 确定 分 支 预测 是 否 正确 之 前 就 

开始 执行 这 些 操作 ，。 如 果 过 后 确定 分 支 预 测 错误 ， 会 将 状态 重新 设置 到 分 支点 的 状态 ， 并 
开始 取出 和 执行 另 一 个 方向 上 的 指令 。 标 记 为 取 指 控制 的 块 包括 分 支 预测 ， 以 完成 确定 取 
哪些 指令 的 任务 。 

指令 译 码 逻辑 接收 实际 的 程序 指令 ， 并 将 它们 转换 成 一 组 基本 操作 (有 时 称 为 微 操 作 )。 
每 个 这 样 的 操作 都 完成 某 个 简单 的 计算 任务 ， 例 如 两 个 数 相 加 ， 从 内 存 中 读数 据 ， 或 是 向 内 
存 写 数据 。 对 于 具有 复杂 指令 的 机 器 ， 比 如 x86 处 理 器 ， 一 条 指令 可 以 被 译 码 成 多 个 操作 。 
关于 指令 如 何 被 译 码 成 操作 序列 的 细节 ， 不 同 的 机 器 都 会 不 同 ， 这 个 信息 可 谓 是 高 度 机 密 。 
第 运 的 是 ， 不 需要 知道 某 台 机 器 实现 的 底层 细节 ， 我 们 也 能 优化 自己 的 程序 。 


加 术语 “分 支 ” 专 指 条 件 转移 指令 。 对 处 理 器 来 说 ， 其 他 可 能 将 控制 传送 到 多 个 目的 地 址 的 指令 ， 例 如 过 程 
返回 和 间接 跳 转 ， 带 来 的 也 是 类 似 的 挑战 。 
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在 一 个 典型 的 x86 实现 中 ， 一 条 只 对 寄存 器 操作 的 指令 ， 例 如 


addq %rax,%rdx 


会 被 转化 成 一 个 操作 。 男 一 方面 ， 一 条 包括 一 个 或 者 多 个 内 存 引 用 的 指令 ， 例 如 
addq %rax,8(%rdx) 


会 产生 多 个 操作 ， 把 内 存 引 用 和 算术 运算 分 开 。 这 条 指令 会 被 译 码 成 为 三 个 操作 : 一 个 操 
作 从 内 存 中 加 载 一 个 值 到 处 理 融 中 ， 一 个 操作 将 加 载 进来 的 值 加 上 寄存 顺 srax 中 的 值 ， 
一 个 操作 将 结果 存 回 到 内 存 。 这 种 译 码 逻 辑 对 指令 进行 分 解 ， 人 允许 任务 在 一 组 专门 的 硬 

件 单元 之 间 进 行 分 割 。 这 些 单元 可 以 并 行 地 执行 多 条 指令 的 不 同 部 分 。 

ee 通常 ， 每 个 时 钟 周 期 会 接收 多 个 操作 。 这 些 操作 会 被 
分 派 到 一 组 功能 单元 中 ， 它 们 会 执行 实际 的 操作 。 这 些 功能 单元 专门 用 来 处 理 不 同类 型 的 
操作 。 

读 写 内 存 是 由 加 载 和 存储 单元 实现 的 。 加 载 单 元 处 理 从 内 存 读数 据 到 处 理 器 的 操作 。 
这 个 单元 有 一 个 加 法 器 来 完成 地 址 计算 。 类 似 ， 存 储 单元 处 理 从 处 理 寓 写 数据 到 内 存 的 操 
作 。 它 也 有 一 个 加 法 器 来 完成 地 址 计算 。 如 图 中 所 示 ， 加 载 和 存储 单元 通过 数据 高 速 缓存 
(data cache) 来 访问 内 存 。 数 据 高 速 缓存 是 一 个 高 速 存 储 器 ， 存 放 着 最 近 访 问 的 数据 值 。 

使 用 投机 执行 技术 对 操作 求 值 ， 但 是 最 终结 果 不 会 存放 在 程序 寄存 器 或 数据 内 存 中 ， 
直到 处 理 需 能 确定 应 该 实际 执行 这 些 指令 。 分 文 操 作 被 送 到 EU， 不 是 确定 分 支 该 往 哪 里 
去 ， 而 是 确定 分 文 预测 是 否 正 确 。 如 果 预 测 错误 ，EU 会 丢弃 分 支点 之 后 计算 出 来 的 结果 。 
它 还 会 发 信号 给 分 支 单元 ， 说 预测 是 错误 的 ， 并 指出 正确 的 分 文 目的 。 在 这 种 情况 中 ， 分 
文 单 元 开始 在 新 的 位 置 取 指 。 如 在 3. 6.6 节 中 看 到 的 ， 这 样 的 预测 错误 会 导致 很 大 的 性 能 
开销 。 在 可 以 取出 新 指令 、 译 码 和 发 送 到 执行 单元 之 前 ， 要 花费 一 点 时 间 。 

图 5-11 说 明 不 同 的 功能 单元 被 设计 来 执行 不 同 的 操作 。 和 那些 标记 为 执行 “算术 运算 ” 
的 单元 通常 是 专门 用 来 执行 整数 和 浮 点 数 操作 的 不 同 组 合 。 随 着 时 间 的 推移 ， 在 单个 微 处 
理 器 芯片 上 能 够 集成 的 晶体 管 数量 越 来 越 多 ， 后 续 的 微 处 理 器 型 号 都 增加 了 功能 单元 的 数 
量 以 及 每 个 单元 能 执行 的 操作 组 合 ， 还 提升 了 每 个 单元 的 性 能 。 由 于 不 同 程序 间 所 要 求 的 
操作 变化 很 大 ， 因 此 ， 算 术 运 算 单 元 被 特意 设计 成 能 够 执行 各 种 不 同 的 操作 。 比 如 ， 有 些 
程序 也 许 会 涉及 整数 操作 ， 而 其 他 则 要 求 许 多 浮 点 操作 。 如 果 一 个 功能 单元 专门 执行 整数 
操作 ， 而 另 一 个 只 能 执行 浮 点 操作 ， 那 么 ， 这 些 程序 就 没有 一 个 能 够 完全 得 到 多 个 功能 单 
元 带 来 的 好 处 了 。 

举 个 例子 ， 我 们 的 Intel Core 17 Haswell 参考 机 有 8 个 功能 单元 ， 编 号 为 0 一 7。 下 面 
部 分 列 出 了 每 个 单元 的 功能 : 

0: 整数 运算 、 浮 点 乘 、 整 数 和 浮上 点 数 除 法 、 分 支 

1: 整数 运算 、 浮 点 加 、 整 数 乘 、 浮 点 乘 

: 加 载 、 地 址 计算 

: 加 载 、 地 址 计算 


: 整数 运算 、 分 支 
: 存储 、 地 址 计算 
在 上 面 的 列表 中 ， “整数 运算 ”是 指 基 本 的 操作 ， 比 如 加 法 、 位 级 操作 和 移 位 。 乘 法 


pe 
Mt 
起 
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和 除法 需要 更 多 的 专用 资源 。 我 们 看 到 存储 操作 要 两 个 功能 单元 一 一 一 个 计算 存储 地 址 ， 
一 个 实际 保存 数据 。5. 12 节 将 讨论 存储 (和 加 载 ) 操 作 的 机 制 。 

我 们 可 以 看 出 功能 单元 的 这 种 组 合 具 有 同时 执行 多 个 同类 型 操作 的 潜力 。 它 有 4 个 功 
能 单元 可 以 执行 整数 操作 ，2 个 单元 能 执行 加 载 操作 ，2 个 单元 能 执行 浮 点 乘法 。 稍 后 我 
们 将 看 到 这 些 资 源 对 程序 获得 最 大 性 能 所 带 来 的 影响 。 

在 ICU 中 ， 退 役 单元 (retirement unit) 记 录 正 在 进行 的 处 理 ， 并 确保 它 遵守 机 器 级 程 
序 的 顺序 语义 。 我 们 的 图 中 展示 了 一 个 寄存 器 文件 ， 它 包含 整数 、 浮 点 数 和 最 近 的 SSE 和 
AVX 寄存 项， 是 退役 单元 的 一 部 分 ， 因 为 退役 单元 控制 这 些 寄存 器 的 更 新 。 指 令 译 码 时 ， 
关于 指令 的 信息 被 放置 在 一 个 先进 先 出 的 队列 中 。 这 个 信息 会 一 直 保 持 在 队列 中 ， 直 到 发 
生 以 下 两 个 结果 中 的 一 个 。 首 先 ， 一 旦 一 条 指令 的 操作 完成 了 ， 而 且 所 有 引起 这 条 指令 的 
分 文 点 也 都 被 确认 为 预测 正确 ， 那 么 这 条 指令 就 可 以 退役 (retired) 了 ， 所 有 对 程序 寄存 上 需 
的 更 新 都 可 以 被 实际 执行 了 。 另 一 方面 ， 如 果 引 起 该 指令 的 某 个 分 支点 预测 错误 ， 这 条 指 
令 会 被 清空 (flushed)， 丢 弃 所 有 计算 出 来 的 结果 。 通 过 这 种 方法 ， 预 测 错误 就 不 会 改变 程 
序 的 状态 了 。 

正如 我 们 已 经 描述 的 那样 ， 任 何 对 程序 寄存 需 的 更 新 都 只 会 在 指令 退役 时 才 会 发 生 ， 
只 有 在 处 理 需 能 够 确信 导致 这 条 指令 的 所 有 分 文 都 预测 正确 了 ， 才 会 这 样 做 。 为 了 加 速 一 
条 指令 到 另 一 条 指令 的 结果 的 传送 ， 许 多 此 类 信息 是 在 执行 单元 之 间 交 换 的 ， 即 图 中 的 
“操作 结果 ”。 如 图 中 的 箭头 所 示 ， 执 行 单 元 可 以 直接 将 结果 发 送 给 彼此 。 这 是 4.5.5 节 中 
简单 处 理 器 设计 中 采用 的 数据 转发 技术 的 更 复杂 精细 版 本 。 

控制 操作 数 在 执行 单元 间 传 送 的 最 常见 的 机 制 称 为 寄存 器 重 命名 (register renaming)。 当 
一 条 更 新 寄存 器 ~ 的 指令 译 码 时 ， 产 生 标 记 t:， 得 到 一 个 指向 该 操作 结果 的 唯一 的 标识 符 。 
条 目 (r, 被 加 入 到 一 张 表 中 ， 该 表 维护 着 每 个 程序 寄存 器 ~ 与 会 更 新 该 寄存 器 的 操作 的 标 
记 t 之 间 的 关联 。 当 随后 以 寄存 器 r 作为 操作 数 的 指令 译 码 时 ， 发 送 到 执行 单元 的 操作 会 包 
含 t 作 为 操作 数 源 的 值 。 当 某 个 执行 单元 完成 第 一 个 操作 时 ， 会 生成 一 个 结果 (v，z)， 指 明 
标记 为 t 的 操作 产生 值 v。 所 有 等 待 t 作 为 源 的 操作 都 能 使 用 wv 作为 源 值 ， 这 就 是 一 种 形式 的 
数据 转发 。 通 过 这 种 机 制 ， 值 可 以 从 一 个 操作 直接 转发 到 另 一 个 操作 ， 而 不 是 写 到 寄存 器 文 
件 再 读 出 来 ， 使 得 第 二 个 操作 能 够 在 第 一 个 操作 完成 后 尽快 开始 。 重 命名 表 只 包含 关于 有 未 
进行 写 操 作 的 寄存 器 条 目 。 当 一 条 被 译 码 的 指令 需要 寄存 器 >， 而 又 疫 有 标记 与 这 个 寄存 天 
相关 联 ， 那 么 可 以 直接 从 寄存 器 文件 中 获取 这 个 操作 数 。 有 了 寄存 器 重 命名 ， 即 使 只 有 在 处 
理 器 确定 了 分 支 结果 之 后 才能 更 新 寄存 器 ， 也 可 以 预测 着 执行 操作 的 整个 序列 。 


国 河 乱 序 处 理 的 历史 


乱 序 处 理 最 早 是 在 1964 年 Control Data Corporation 的 6600 处 理 器 中 实现 的 。 指 令 
由 十 个 不 同 的 功能 单元 处 理 ， 每 个 单元 都 能 独立 地 运行 。 在 那个 时 候 ， 这 种 时 钟 频率 为 
10Mhz 的 机 器 被 认为 是 科学 计算 最 好 的 机 器 。 

在 1966 年 ，IBM 首先 是 在 IBM 360/91 上 实现 了 乱 序 处 理 ， 但 只 是 用 来 执行 浮 点 指 
令 。 在 大 约 25 年 的 时 间 里 ， 乱 序 处 理 都 被 认为 是 一 项 异乎 寻常 的 技术 ， 只 在 追求 尽 可 
能 高 性 能 的 机 器 中 使 用 ， 直 到 1990 年 IBM 在 RS/6000 系列 工作 站 中 重新 引入 了 这 项 技 
术 。 这 种 设计 成 为 了 IBM/Motorola PowerPC 系列 的 基础 ，1993 年 引入 的 型 号 601， 它 
成 为 第 一 个 使 用 乱 序 处 理 的 单 芯 片 微 处 理 器 。Intel 在 1995 年 的 PentiumPro 型 号 中 引入 
了 乱 序 处 理 ，PentiumPro 的 底层 微 体 系 结构 类 似 于 我 们 的 参考 机 。 
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5.7.2 功能 单元 的 性 能 


5-12 提供 了 Intel Core i7 Haswell 参考 机 的 一 些 算术 运算 的 性 能 ， 有 的 是 测量 出 来 
的 ， 有 的 是 引用 Intel 的 文献 L49j。 这 些 时 间 对 于 其 他 处 理 顺 来 说 也 是 具有 代表 性 的 。 每 
个 运算 都 是 由 以 下 这 些 数值 来 刻画 的 : 一 个 是 延迟 (latency)， 它 表示 完成 运算 所 需要 的 总 
时 间 ; 另 一 个 是 发 射 时 间 (issue time)， 它 表示 两 个 连续 的 同类 型 的 运算 之 间 需 要 的 最 小 
时 钟 周 期 数 ; 还 有 一 个 是 容量 (capacity) ， 它 表示 能 够 执行 该 运算 的 功能 单元 的 数量 。 





加 5-12 参考 机 的 操作 的 延迟 、 发 射 时 间 和 容量 特性 。 延 迟 表 明 执 行 实际 运算 所 需要 的 时 钟 周期 总 数 ， 
而 发 射 时 间 表 明 两 次 运算 之 间 间 隔 的 最 小 周期 数 。 容 量 表明 同时 能 发 射 多 少 个 这 样 的 操作 。 除 法 
需要 的 时 间 依 赖 于 数据 值 


我 们 看 到 ， 从 整数 运算 到 浮 点 运算 ， 延迟 是 增加 的 。 还 可 以 看 到 加 法 和 乘法 运算 的 发 
射 时 间 都 为 1， 意思 是 说 在 每 个 时 钟 周期 ， 处 理 器 都 可 以 开始 一 条 新 的 这 样 的 运算 。 这 种 
很 短 的 发 射 时 间 是 通过 使 用 流水 线 实 现 的 。 流 水 线 化 的 功能 单元 实现 为 一 系列 的 阶段 
(stage)， 每 个 阶段 完成 一 部 分 的 运算 。 例 如 ， 一 个 典型 的 浮 点 加 法 器 包含 三 个 阶段 (所 以 
有 三 个 周期 的 延迟 ): 一 个 阶段 处 理 指数 值 ， 一 个 阶段 将 小 数 相 加 ， 而 为 一 个 阶段 对 结果 
进行 舍 人 。 算 术 运 算 可 以 连续 地 通过 各 个 阶段 ， 而 不 用 等 待 一 个 操作 完成 后 再 开始 下 一 
个 。 只 有 当 要 执行 的 运算 是 连续 的 、 逻 辑 上 独立 的 时 候 ， 才 能 利用 这 种 功能 。 发 射 时 间 为 
1 的 功能 单元 被 称 为 完全 流水 线 化 的 (fully pipelined); 每 个 时 钟 周 期 可 以 开始 一 个 新 的 运 
算 。 出 现 容量 大 于 1 的 运算 是 由 于 有 多 个 功能 单元 ， 就 如 前 面 所 述 的 参考 机 一 样 。 

我 们 还 看 到 ， 除 法 器 (用 于 整数 和 浮 点 除法 ， 还 用 来 计算 浮 点 平方 根 ) 不 是 完全 流水 线 
化 的 一 一 它 的 发 射 时 间 等 于 它 的 延迟 。 这 就 意味 着 在 开始 一 条 新 运算 之 前 ， 除 法 右 必 须 完 
成 整个 除法 。 我 们 还 看 到 ， 对 于 除法 的 延迟 和 发 射 时 间 是 以 范围 的 形式 给 出 的 ， 因 为 某 些 
被 除数 和 除数 的 组 合 比 其 他 的 组 合 需要 更 多 的 步骤 。 除 法 的 长 延迟 和 长 发 射 时 间 使 之 成 为 
了 一 个 相对 开销 很 大 的 运算 。 

表达 发 射 时 间 的 一 种 更 常见 的 方法 是 指明 这 个 功能 单元 的 最 大 吞吐 量 ,， 定义 为 发 射 时 
间 的 倒数 。 一 个 完全 流水 线 化 的 功能 单元 有 最 大 的 吞吐 量 ， 每 个 时 钟 周期 一 个 运算 ， 而 发 
射 时 间 较 大 的 功能 单元 的 最 大 吞吐 量 比较 小 。 具 有 多 个 功能 单元 可 以 进一步 提高 吞吐 量 。 
对 一 个 容量 为 C， 发 射 时 间 为 工 的 操作 来 说 ， 处 理 器 可 能 获得 的 吞吐 量 为 每 时 钟 周 期 C/I 
个 操作 。 比 如 ， 我 们 的 参考 机 可 以 每 个 时 钟 周 期 执行 两 个 浮 点 乘法 运算 。 我 们 将 看 到 如 何 
利用 这 种 能 力 来 提高 程序 的 性 能 。 

电路 设计 者 可 以 创建 具有 各 种 性 能 特性 的 功能 单元 。 创 建 一 个 延迟 短 或 使 用 流水 线 的 
单元 需要 较 多 的 硬件 ， 特 别 是 对 于 像 磁 法 和 浮 点 操作 这 样 比较 复杂 的 功能 。 因 为 微 处 理 器 
芯片 上 ， 对 于 这 些 单元 ， 只 有 有 限 的 空间 ， 所 以 CPU 设计 者 必须 小 心地 平衡 功能 单元 的 
数量 和 它们 各 自 的 性 能 ， 以 获得 最 优 的 整体 性 能 。 设 计 者 们 评估 许多 不 同 的 基准 程序 ， 将 
大 多 数 资源 用 于 最 关键 的 操作 。 如 图 5-12 表明 的 那样 ， 在 Core 17 Haswell 处 理 器 的 设计 
中 ， 整 数 乘 法 、 浮 点 乘法 和 加 法 被 认为 是 重要 的 操作 ， 即 使 为 了 获得 低 延 迟 和 较 高 的 流水 
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线 化 程度 需要 大 量 的 硬件 。 另 一 方面 ， 除 法 相对 不 太 和 常用 ， 而 且 要 想 实 现 低 延 迟 或 完全 流 
水 线 化 是 很 困难 的 。 

这 些 算 术 运 算 的 延迟 、 发 射 时 间 和 容量 会 影响 合并 函数 的 性 能 。 我 们 用 CPE 值 的 两 
个 基本 界限 来 描述 这 种 影响 : 





延迟 界限 给 出 了 任何 必须 按照 严格 顺序 完成 合并 运算 的 函数 所 需要 的 最 小 CPE 值 。 根 据 
功能 单元 产生 结果 的 最 大 速率 ， 知 吐 量 界 限 给 出 了 CPE 的 最 小 界限 。 例 如 ， 因 为 只 有 一 
个 整数 乘法 器 ， 它 的 发 射 时 间 为 1 个 时 钟 周期 ， 处 理 器 不 可 能 支持 每 个 时 钟 周 期 大 于 1 条 
乘法 的 速度 。 男 一 方面 ， 四 个 功能 单元 都 可 以 执行 整数 加 法 ， 处 理 器 就 有 可 能 持续 每 个 周 
期 执行 4 个 操作 的 速率 。 不 华 的 是 ， 因 为 需要 从 内 存 读数 据 ， 这 造成 了 另 一 个 否 吐 量 界 
限 。 两 个 加 载 单元 限制 了 处 理 吉 每 个 时 钟 周期 最 多 只 能 读 取 两 个 数据 值 ， 从 而 使 得 吞吐 量 
界限 为 0.50。 我 们 会 展示 延迟 界限 和 吞吐 量 界限 对 合并 函数 不 同 版 本 的 影响 。 


5.7.3 ”处理 器 操作 的 抽象 模型 


作为 分 析 在 现代 处 理 需 上 执行 的 机 器 级 程序 性 能 的 一 个 工具 ， 我 们 会 使 用 程序 的 数据 
流 (data-flow) 表 示 ， 这 是 一 种 图 形 化 的 表示 方法 ， 展 现 了 不 同 操作 之 间 的 数据 相关 是 如 何 
限制 它们 的 执行 顺序 的 。 这 些 限 制 形成 了 图 中 的 关键 路 径 (critical path) ， 这 是 执行 一 组 机 
器 指 令 所 需 时 钟 周 期 数 的 一 个 下 界 。 

在 继续 技术 细节 之 前 ， 检 查 一 下 函数 combine4 的 CPE 测量 值 是 很 有 帮助 的 ， 到 目前 
为 止 combine4 是 最 快 的 代码 : 


combined 累积 在 临时 变量 中 
延迟 界限 
否 吐 量 界限 


我 们 可 以 看 到 ， 除 了 整数 加 法 的 情况 ， 这 些 测量 值 与 处 理 器 的 延迟 界限 是 一 样 的 。 这 
不 是 巧合 一 一 它 表明 这 些 函 数 的 性 能 是 由 所 执行 的 求 和 或 者 乘积 计算 主宰 的 。 计 算 2 个 元 
素 的 乘积 或 者 和 需要 大 约 L， nn 十 K 个 时 钟 周 期 ， 这 里 工 是 合并 运算 的 延迟 ， 而 K 表示 调 
用 函数 和 初始 化 以 及 终止 循环 的 开销 。 因 此 ，CPE 就 等 于 延迟 界限 工 。 

1. 从 机 器 级 代码 到 数据 流 图 

程序 的 数据 流 表示 是 非 正式 的 。 我 们 只 是 想 用 它 来 形象 地 描述 程序 中 的 数据 相关 是 如 
何 主宰 程序 的 性 能 的 。 以 combine4( 图 5-10) 为 例 来 描述 数据 流 表 示 法 。 我 们 将 注意 力 集 
中 在 循环 执行 的 计算 上 ， 因 为 对 于 大 向 量 来 说 ， 这 是 决定 性 能 的 主要 因素 。 我 们 考虑 类 型 
为 double 的 数据 、 以 乘法 作为 合并 运算 的 情况 ， 不 过 其 他 数据 类 型 和 运算 的 组 合 也 有 几 
乎 一 样 的 结构 。 这 个 循环 编译 出 的 代码 由 4 条 指令 组 成 ， 寄 存 器 srdx 存放 指向 数组 data 
中 第 i 个 元 素 的 指针 ,%rax 存放 指向 数组 末尾 的 指针 ， 而 sxmmg 存放 累积 值 acc。 
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lnner loop of combine4. data_t = double, OP = * 


acc in hxmmO0, datati ID %rdx, datatlenpgth ID Krax 


1 LL2b: loop: 

2 vmulsd (%rdx), %xmmO0O, %xmmO Multiply acc by datali] 
3 addq $8, hrdx Increment data+ti 

4 cmpq hrax, wrdx Compare to datatlength 
5 jne “LL25 If !=, goto loop 


如 图 5-13 所 示 ， 在 我 们 假想 的 处 理 器 设计 中 ， 指 令 译 码 器 会 把 这 4 条 指令 扩展 成 为 
一 系列 的 五 步 操 作 ， 最 开始 的 乘法 指令 被 扩展 成 一 个 1oad 操作 ， 从 内 存 读 出 源 操 作 数 ， 
和 一 个 mul 操作 ， 执 行 乘法 。 


Srax | Srdx |%xmmO 





He (Srdx), Sxmm0, SxmmO0 


addqg $8,%rdx 
CmMpq %Srax, Srdx 


jne loop 


图 5-13 ”combine4 的 内 循环 代码 的 图 形 化 表示 。 指 令 动 态 地 被 翻译 成 一 个 或 两 个 操作 ， 每 个 
操作 从 其 他 操作 或 寄存 器 接收 值 ， 并 且 为 其 他 操作 和 寄存 器 产生 值 。 我 们 给 出 最 后 
一 条 指令 的 目标 为 标号 loop。 它 跳 转 到 给 出 的 第 一 条 指令 


作为 生成 程序 数据 流 图 表示 的 一 步 ， 图 5-13 左手 边 的 方 框 和 线 给 出 了 各 个 指令 是 如 
何 使 用 和 更 新 寄存 器 的 ， 顶 部 的 方 框 表示 循环 开始 时 寄存 器 的 值 ， 而 底部 的 方 框 表示 最 后 
寄存 器 的 值 。 例 如 ， 寄 存 器 srax 只 被 cmp 操作 作为 源 值 ， 因 此 这 个 寄存 器 在 循环 结束 时 
有 着 同 循环 开始 时 一 样 的 值 。 另 一 方面 ， 在 循环 中 ， 寄 存 器 %rdx 既 被 使 用 也 被 修改 。 它 
的 初始 值 被 load 和 add 操作 使 用 ; 它 的 新 值 由 add 操作 产生 ， 然 后 被 cmp 操作 使 用 。 在 
循环 中 ，mul 操作 首先 使 用 寄存 器 $xmm0 的 初始 值 作 为 源 值 ， 然 后 会 修改 它 的 值 。 

5-13 中 的 某 些 操作 产生 的 值 不 对 应 于 任何 寄存 器 。 在 右边 ， 用 操作 间 的 弧 线 来 表 
示 。1oad 操作 从 内 存 读 出 一 个 值 ， 然 后 把 它 直 接 传递 到 mul 操作 。 由 于 这 两 个 操作 是 通 
过 对 一 条 vmulsad 指令 译 码 产生 的 ， 所 以 这 个 在 两 个 操作 之 间 传 递 的 中 间 值 没有 与 之 相关 
联 的 寄存 胡 。cmp 操作 更 新 条 件 码 ， 然 后 jne 操作 会 测试 这 些 条 件 码 。 

对 于 形成 循环 的 代码 片段 ， 我 们 可 以 将 访问 到 的 寄存 器 分 为 四 类 : 

只 读 : 这 些 寄存 器 只 用 作 源 值 ， 可 以 作为 数据 ， 也 可 以 用 来 计算 内 存 地 址 ， 但 是 在 循 
环 中 它们 是 不 会 被 修改 的 。 循 环 combine4 的 只 读 寄存 器 是 S$rax。 

只 写 : 这 些 寄存 器 作为 数据 传送 操作 的 目的 。 在 本 循环 中 没有 这 样 的 寄存 器 。 

局 部 : 这 些 寄存 器 在 循环 内 部 被 修改 和 使 用 ， 和 迭代 与 迭代 之 间 不 相关 。 在 这 个 循环 
中 ， 条 件 码 寄存 器 就 是 例子 : cmp 操作 会 修改 它们 ， 然 后 jne 操作 会 使 用 它们 ， 不 过 这 种 
相关 是 在 单 次 迭代 之 内 的 。 

循环 : 对 于 循环 来 说 ， 这 些 寄存 占 既 作为 源 值 ， 又 作为 目的 ， 一 次 迭代 中 产生 的 值 会 
在 男 一 次 迭代 中 用 到 。 可 以 看 到 ,%rdx 和 %xmm0 是 combine4 的 循环 寄存 器 ， 对 应 于 程序 
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值 data+i 和 acc。 


正如 我 们 会 看 到 的 ， 循 环 寄存 秀之 间 的 操作 链 决 定 了 限制 性 能 的 数据 相关 。 

5-14 是 对 图 5-13 的 图 形 化 表示 的 进一步 改进 ， 目 标 是 只 给 出 影响 程序 执行 时 间 的 操 
作 和 数据 相关 。 在 图 5-14a 中 看 到 ， 我 们 重新 排列 了 操作 符 ， 更 清晰 地 表明 了 从 项 部 源 寄 存 
器 (只 读 寄 存 器 和 循环 寄存 器 ) 到 底部 目的 寄存 器 (只 写 寄 存 顺 和 循环 寄存 器 ) 的 数据 流 。 





| EN 
ff Wo 全 网 Wan Wl 


a) 重新 排列 了 图 $-13 的 操作 符 ， 
更 清晰 地 表明 了 数据 相关 


在 图 5-14a 中 ， 如 果 操 作 符 不 属于 某 个 循 


环 寄存 器 之 间 的 相关 链 ， 那 么 就 把 它们 标识 成 


白色 。 例 如， 比较 Ccmp) 和 分 文 (jne) 操 作 不 直 
接 影响 程序 中 的 数据 流 。 假 设 指令 控制 单元 预 
测 会 选择 分 支 ， 因 此 程序 会 继续 循环 。 比 较 和 
分 支 操作 的 目的 是 测试 分 支 条 件 ， 如 果 不 选 择 
分 支 的 话 ， 就 通知 ICU。 我 们 假设 这 个 检查 能 
够 完成 得 足够 快 ， 不 会 减 慢 处 理 融 的 执行 。 

在 图 5-14b 中 ， 消 除了 左边 标识 为 日 色 的 
操作 符 ， 而 且 只 保留 了 循环 寄存 器 。 剩 下 的 
是 一 个 抽象 的 模板 ， 表 明 的 是 由 于 循环 的 一 
次 迭代 在 循环 寄存 器 中 形成 的 数据 相关 。 在 
这 个 图 中 可 以 看 到 ， 从 一 次 和 迭代 到 下 一 次 和 迭 
代 有 两 个 数据 相关 。 在 一 边 ， 我 们 看 到 存储 
在 寄存 器 %$xmm0 中 的 程序 值 acc 的 连续 的 值 之 
间 有 相关 。 通 过 将 acc 的 旧 值 乘 以 一 个 数据 
元 素 ， 循 环 计 算出 acc 的 新 值 ， 这 个 数据 元 素 
是 由 load 操作 产生 的 。 在 另 一 边 ， 我 们 看 到 循 
环 索引 i 的 连续 的 值 之 间 有 相关 。 每 次 迭代 中 ， 
i 的 旧 值 用 来 计算 load 操作 的 地 址 ， 然 后 add 
操作 也 会 增加 它 的 值 ， 计 算出 新 值 。 

图 5-15 给 出 了 函数 combine4 内 循环 的 n 
次 迭代 的 数据 流 表示 。 可 以 看 出 ,简单 地 重 





b) 操作 在 一 次 迭代 中 使 用 某 些 值 ， 
产生 出 在 下 一 次 迭代 中 需要 的 新 值 


图 5-14 将 combine4 的 操作 抽象 成 数据 流 图 


图 $-135 


关键 路 径 


data[0] ， 





4dtatd| 





combine4 的 内 循环 的 n 次 迭代 计算 的 
数据 流 表 示 。 乘 法 操作 的 序列 形成 了 限 
制程 序 性 能 的 关键 路 径 
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复 图 5-14 右边 的 模板 n 次 ， 就 能 得 到 这 张 图 。 我 们 可 以 看 到 ， 程 序 有 两 条 数据 相关 链 ， 
分 别 对 应 于 操作 mul 和 add 对 程序 值 acc 和 data+ti 的 修改 。 假 设 浮 点 乘法 延迟 为 5 个 周 
期 ， 而 整数 加 法 延迟 为 1 个 周期 ， 可 以 看 到 左边 的 链 会 成 为 关键 路 径 ， 需 要 5n 个 周期 执 
行 。 布 边 的 链 只 需要 nn 个 周期 执行 ， 因 此 ， 它 不 会 制约 程序 的 性 能 。 

图 5-15 说 明 在 执行 单 精 度 浮 点 乘法 时 ， 对 于 combine4， 为 什么 我 们 获得 了 等 于 5 个 周 
期 延迟 界限 的 CPE。 当 执行 这 个 函数 时 ， 浮 点 乘法 絮 成 为 了 制约 资源 。 循 环 中 需要 的 其 他 操 
作 一 一 控制 和 测试 指针 值 datati， 以 及 从 内 存 中 读数 据 一 一 与 乘法 需 并 行 地 进行 。 每 次 后 继 的 
acc 的 值 被 计算 出 来 ， 它 就 反馈 回来 计算 下 一 个 值 ， 不 过 只 有 等 到 5 个 周期 后 才能 完成 。 

其 他 数据 类 型 和 运算 组 合 的 数据 流 与 图 5-15 所 示 的 内 容 一 样 ， 只 是 在 左边 的 形成 数 
据 相 关 链 的 数据 操作 不 同 。 对 于 所 有 情况 ， 如 果 运 算 的 延迟 ，L 大 于 1， 那么 可 以 看 到 测 
量 出 来 的 CPE 就 是 L， 表 明 这 个 链 是 制约 性 能 的 关键 路 径 。 

2. 其 他 性 能 因素 

男 一 方面 ， 对 于 整数 加 法 的 情况 ,我们 对 combine4 的 测试 表明 CPE 为 1. 27， 而 根 
据 沿 着 图 5-15 中 左边 和 右边 形成 的 相关 链 预 测 的 CPE 为 1. 00， 测 试 值 比 预 测 值 要 慢 。 这 
说 明了 一 个 原则 ， 那 就 是 数据 流 表 示 中 的 关键 路 径 提 供 的 只 是 程序 需要 周期 数 的 下 界 。 还 
有 其 他 一 些 因素 会 限制 性 能 ， 包 括 可 用 的 功能 单元 的 数量 和 任何 一 步 中 功能 单元 之 间 能 够 
传递 数据 值 的 数量 。 对 于 合并 运算 为 整数 加 法 的 情况 ， 数 据 操 作 足 够 快 ， 使 得 其 他 操作 供 
应 数据 的 速度 不 够 快 。 要 准确 地 确定 为 什么 程序 中 每 个 元 素 需 要 1. 27 个 周期 ， 需 要 比 公 
开 可 以 获得 的 更 详细 的 硬件 设计 知识 。 

总 结 一 下 combine4 的 性 能 分 析 : 我 们 对 程序 操作 的 抽象 数据 流 表示 说 明 ，combine4 
的 关键 路 径 长 L* n 是 由 对 程序 值 acc 的 连续 更 新 造成 的 ， 这 条 路 径 将 CPE 限制 为 最 多 
L。 除 了 整数 加 法 之 外 ， 对 于 所 有 的 其 他 情况 ,测量 出 的 CPE 确实 等 于 LL， 对 于 整数 加 
法 ， 测 量 出 的 CPE 为 1. 27 而 不 是 根据 关键 路 径 的 长 度 所 期 望 的 1. 00。 

看 上 上去， 延迟 界限 是 基本 的 限制 ， 决 定 了 我 们 的 合并 运算 能 执行 多 快 。 接 下 来 的 任务 
是 重新 调整 操作 的 结构 ， 增 强 指令 级 并 行 性 。 我 们 想 对 程序 做 变换 ， 使 得 唯一 的 限制 变 成 
砧 吐 量 界 限 ， 得 到 接近 于 1. 00 的 CPE。 

证 弹 练习 题 5.5 假设 写 一 个 对 多 项 式 求 值 的 函数 ， 这 里 ， 多 项 式 的 次 数 为 hn， 系数 为 ao， 

ai …，ans 对 于 值 工 我 们 对 多 项 式 求 值 ， 计 算 

Qo 十 Qj 文 十 QoX 十 罗 十 QT (8,2) 

这 个 求 值 可 以 用 下 面 的 函数 来 实现 ,参数 包括 一 个 系数 数组 a、 值 x 和 和 多项式 的 次 数 

degree( 等 式 (5.2) 中 的 值 n)。 在 这 个 函数 的 一 个 循环 中 ， 我 们 计算 连续 的 等 式 的 项 ， 

以 及 连续 的 工 的 笑 : 


double poly(double al[l], double x, long degree) 
1 


1 
2 
3 long i; 

4 double result = a[0]; 

5 double xpwr = Xi /* Equals x“i at start of loop */ 
4 for (i = 1; i <= degree; i++) { 

7 result += al[li] * xpwr; 

8 XPWr = X * XPpWr; 

9 } 

0 

1 


return result,; 
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A. 对 于 次 数 n， 这 段 代 码 执 行 多 少 次 加 法 和 多 少 次 乘法 运算 ? 

B. 在 我 们 的 参考 机 上 ， 算 术 运 算 的 延迟 如 图 5-12 所 示 ， 我 们 测量 了 这 个 函数 的 CPE 
等 于 5.00。 根 据 由 于 实现 函数 第 7 一 8 行 的 操作 迭代 之 间 形 成 的 数据 相关 ， 和 解释 为 
什么 会 得 到 这 样 的 CPE。 

芭 s 练习 题 5.6 我 们 继续 探索 练习 题 5.5 中 描述 的 多 项 式 求 值 的 方法 。 通 过 采用 Horner 
法 (以 英国 数学 家 William G. Horner(1786 一 1837) 命 名 ) 对 多 项 式 求 值 ， 我 们 可 以 减少 
乘法 的 数量 。 其 思想 是 反复 提出 工 的 医 ， 得 到 下 面 的 求 值 : 

as 十 亚 (ii 十 囊 ks 十 5 十 六 1 十 IJcosy ) (5 3) 
使 用 Horner 法 ， 我 们 可 以 用 下 面 的 代码 实现 多 项 式 求 值 ; 


/* Apply Horner's method */ 





1 

2 double polyh(double a[], double x, long degree) 

3 攻 

4 long 工 ; 

5 double result = aLdegreej ; 

6 for (i = degree-l1; i >= 0; i--) 

7 result = al[li] + x*result; 

8 return result; 

9 } 

A. 对 于 次 数 n， 这 段 代码 执行 多 少 次 加 法 和 和 多少 次 乘法 运算 ? 
B. 在 我 们 的 参考 机 上 ， 算 术 运 算 的 延迟 如 图 5-12 所 示 ， 测 量 这 个 函数 的 CPE 等 于 


8. 00。 根 据 由 于 实现 函数 第 7 行 的 操作 和 迭代 之 间 形 成 的 数据 相关 ， 解 释 为 什么 会 
得 到 这 样 的 CPE。 
C. 请 解释 虽然 练习 题 5.5 中 所 示 的 函数 需要 更 多 的 操作 ， 但 是 它 是 如 何 运 行 得 更 快 的 。 


5.8 律 环 展开 

循环 展开 是 一 种 程序 变换 ， 通 过 增加 每 次 迭代 计算 的 元 素 的 数量 ,减少 循环 的 迭代 次 数 。 
psum2 函数 ( 见 图 5-1) 就 是 这 样 一 个 例子 ， 其 中 每 次 迭代 计算 前 置 和 的 两 个 元 素 ， 因 而 将 
需要 的 迭代 次 数 减 半 。 和 循环 展开 能 够 从 两 个 方面 改进 程序 的 性 能 。 首 先 ， 它 减少 了 不 直接 
有 助 于 程序 结果 的 操作 的 数量 ， 例 如 循环 索引 计算 和 条 件 分 文 。 第 二 ， 它 提供 了 一 些 方 
法 ， 可 以 进一步 变化 代码 ， 减 少 整个 计算 中 关键 路 径 上 的 操作 数量 。 在 本 节 中 ， 我 们 会 看 
一 些 简 单 的 循环 展开 ， 不 做 任何 进一步 的 变化 。 

图 5-16 是 合并 代码 的 使 用 “2X1 循环 展开 ”的 版 本 。 第 一 个 循环 每 次 处 理 数组 的 两 个 元 
素 。 也 就 是 每 次 迭代 ， 御 环 索引 i 加 2， 在 一 次 迭代 中 ， 对 数组 元 素 i 和 i 十 1 使 用 合并 运算 。 

一 般 来 说 ， 向 量 长 度 不 一 定 是 2 的 倍数 。 想 要 使 我 们 的 代码 对 任意 向 量 长 度 都 能 正确 
工作 ， 可 以 从 两 个 方面 来 解释 这 个 需求 。 首 先 ， 要 确保 第 一 次 循环 不 会 超出 数组 的 界限 。 
对 于 长 度 为 n 的 向 量 ,， 我 们 将 循环 界限 设 为 n 一 1。 然 后 ， 保 证 只 有 当 循 环 索 引 i 满足 i 一 
n 一 1 时 才 会 执行 这 个 循环 ， 因 此 最 大 数组 索引 i 十 1 满足 ;十 1 过 (2 一 1) 十 1 一 ?7。 

把 这 个 思想 归纳 为 对 一 个 循环 按 任意 因子 进行 展开 ， 由 此 产生 kX1 循环 展开 。 为 此 ， 
上 限 设 为 n 一 k 十 1， 在 循环 内 对 元 素 i 到 i 十 k 一 1 应 用 合并 运算 。 每 次 迭代 ， 循 环 索引 i 加 上 &。 
那么 最 大 循环 索引 i 十 k 一 1 会 小 于 2。 要 使 用 第 二 个 循环 ， 以 每 次 处 理 一 个 元 素 的 方式 处 理 
向 量 的 最 后 几 个 元 素 。 这 个 循环 体 将 会 执行 0~& 一 1 次 。 对 于 & 王 2， 我 们 能 用 一 个 简单 的 条 
件 语句 ， 可 选 地 增加 最 后 一 次 迭代 ， 如 函数 psum2( 图 5-1) 所 示 。 对 于 &A 之 2， 最 后 的 这 些 情 
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况 最 好 用 一 个 循环 来 表示 ， 所 以 对 ==2 的 情况 ， 我 们 同样 也 采用 这 个 编程 惯例 。 我 们 称 这 
种 变换 为 “&X1 循 环 展 开 ?， 因 为 循环 展开 因子 为 &， 而 累积 值 只 在 单个 变量 acc 中 。 


/* 2 x 1 loop unrolling */ 
void combine5(vec_ptr V，data 七 *dest) 
‘ 
long i; 
long length = vec_length(v); 
long limit = length-1,; 
data_t *data = get_vec_start(v); 
data_t acc = IDENT; 


/* Combine 2 elements at a time */ 


for (i = 0; i < limit;: i+=2) +{ 
acc = (acc OP data[i]) OP datal[li+1]:; 
} 


/* Finish any remaining elements */ 
for (; i < length; i++) { 

acc = acc OP datalil]: 
} 


*dest = acc; 





图 5-16 使 用 2X1 循环 展开 。 这 种 变换 能 减 小 循环 开销 的 影响 


戎 现 练习 题 5. 7 修改 combine5 的 代码 ， 展 开 循 环 k 二 5 次 。 
当 测 量 展开 次 数 上 二 2(combine5) 和 ==3 的 展开 代码 的 性 能 时 ， 得 到 下 面 的 结果 : 


combined4d 


combineS5 


延迟 界限 
否 吐 量 界限 





我 们 看 到 对 于 整数 加 法 ，CPE 有 所 改进 ， 得 到 的 延迟 界限 为 1.00。 会 有 这 样 的 结果 
是 得 益 于 减少 了 循环 开销 操作 。 相 对 于 计算 向 量 和 所 需要 的 加 法 数量 ， 降 低 开 销 操作 的 数 
量 ， 此 时 ， 整 数 加 法 的 一 个 周期 的 延迟 成 为 了 限制 性 能 的 因素 。 男 一 方面 ， 其 他 情况 并 没 
有 性 能 提高 一 一 它们 已 经 达到 了 其 延迟 界限 。 图 5-17 给 出 了 当 循 环 展开 到 10 次 时 的 CPE 
测量 值 。 对 于 展开 2 次 和 3 次 时 观察 到 的 趋势 还 在 继续 一 一 没有 一 个 低 于 其 延迟 界限 。 

要 理解 为 什么 kX1 循环 展开 不 能 将 性 能 改进 到 超过 延迟 界限 ， 让 我 们 来 查看 一 下 k= 
2 时 ，combine5 内 循环 的 机 器 级 代码 。 当 类 型 data 七 为 double， 操 作为 乘法 时 ， 生 成 
如 下 代码 : 


Inner loop of combine5. data_t = double, OP = * 
i in hrdx, data rrax, limit ID hrbp, acc in KxmmO 
i .L3B: loop: 
2 vmulsd (Wrax,hrdx,8), %xmmO0, %xmmO Muiltiply acc by datal[i] 
3 vmulsd 8(%rax,%hrdx,8), %xmmO0, hxmmO Multiply acc by datal[i+1] 
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4 addq $2, hrdx Increment i by 2 
5 cmpq rdx, %rbp Compare to limit:i 
6 jg& .LL35 If >, goto loop 
6 
5 
4 一 他 一 double * 
一 时 一 double + 
民 3 着 十 性 可 一 外 一 1ong * 
J long + 
2 
上 有 
0 
] 2 3 4 5 6 
展开 次 数 k 
图 5-17 不 同 程度 &X1 循环 展开 的 CPE 性 能 。 这 种 变换 只 改进 了 整数 加 法 的 性 能 


我 们 可 以 看 到 ， 相 比 combine4 生成 的 基于 指针 的 代码 ，GCC 使 用 了 C 代码 中 数组 引 
用 的 更 加 直接 的 转换 S 。 循 环 索引 i 在 寄存 器 S$rdx 中 ，data 的 地 址 在 寄存 器 srax 中 。 和 
前 面 一 样 ， 累 积 值 acc 在 向 量 寄 存 器 %xmmg0 中 。 循 环 展 开会 导致 两 条 vmulsd 指令 一 一 一 
条 将 data [i] 加 到 acc 上 ， 第 二 条 将 data[i+ 1] 加 到 acc 上 。 图 5-18 给 出 了 这 段 代 码 的 
图 形 化 表示 。 每 条 vmulsd 指令 被 翻译 成 两 个 操作 : 一 个 操作 是 从 内 存 中 加 载 一 个 数组 元 
素 ， 另 一 个 是 把 这 个 值 乘 以 已 有 的 累积 值 。 这 里 我 们 看 到 ， 循 环 的 每 次 执行 中 ， 对 寄存 
器 $xmm0 读 和 写 两 次 。 可 以 重新 排列 、 简 化 和 抽象 这 张 图 ,按照 图 5-19a 所 示 的 过 程 得 到 
图 5-19b 所 示 的 模板 。 然 后 ， 把 这 个 模板 复制 n/2 次 ， 给 出 一 个 长 度 为 n 的 向 量 的 计算 ， 
得 到 如 图 5-20 所 示 的 数据 流 表 示 。 在 此 我 们 看 到 ， 这 张 图 中 关键 路 径 还 是 nn 个 mul 操 
作 一 一 壕 代 次 数 减 半 了 ， 但 是 每 次 迭代 中 还 是 有 两 个 顺序 的 乘法 操作 。 这 个 关键 路 径 是 循 
环 没 有 展开 代码 的 性 能 制约 因素 ,而 它 仍 然 是 kX1 循环 展开 代码 的 性 能 制约 因素 。 


a on 






vmulsd (Srax, Srdx,8), $xmm0, 要 XmmO 


vmulsd 8 (Srax,gSrdx,8); Sxmm0, $xmmO0 


addg $2,$rdx 
cmpq Srdx,srbp 


jg loop 


图 5-18 ”combine5 内 循环 代码 的 图 形 化 表示 。 每 次 迭代 有 两 条 vmulsad 指令 ， 
每 条 指令 被 翻译 成 一 个 load 和 一 个 mul 操作 


加 GCC 优化 器 产生 一 个 函数 的 多 个 版 本 ， 并 从 中 选择 它 预测 会 获得 最 佳 性 能 和 最 小 代码 量 的 那 一 个 。 其 结果 
就 是 ， 源 代码 中 微小 的 变化 就 会 生成 各 种 不 同形 式 的 机 器 码 。 我 们 已 经 发 现 对 基于 指针 和 基于 数组 的 代码 
的 选择 不 会 影响 在 参考 机 上 运行 的 程序 的 性 能 。 
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关键 路 径 
SB 





a) 重新 排列 、 简 化 和 抽象 图 5-18 的 i 
表示 ， 给 出 连续 迭代 之 间 的 数据 相关 





b) 每 次 迭代 必须 顺序 地 执行 两 个 乘法 


图 5-19 将 combine5 的 操作 抽象 成 图 5-20 ”combine5 对 一 个 长 度 为 nn 的 向 量 进行 操作 的 数据 流 
数据 流 图 表示 。 虽 然 循 环 展开 了 2 次， 但 是 关键 路 径 上 还 是 有 
n 个 mul 操作 
下 EE 让 编译 器 展开 循环 


编译 器 可 以 很 容易 地 执行 循环 展开 。 只 要 优化 级 别 设置 得 足够 高 ， 许 多 编译 器 都 能 
例行公事 地 做 到 这 一 点 。 用 优化 等 级 3 或 更 高 等 级 调用 GCC， 它 就 会 执行 循环 展开 。 


5.9 提高 并 行 性 

在 此 ， 程 序 的 性 能 是 受 运算 单元 的 延迟 限制 的 。 不 过 ， 正 如 我 们 表明 的 ， 执 行 加 法 和 乘 
法 的 功能 单元 是 完全 流水 线 化 的 ， 这 意味 着 它们 可 以 每 个 时 钟 周 期 开始 一 个 新 操作 ， 并 且 有 
些 操 作 可 以 被 多 个 功能 单元 执行 。 便 件 具 有 以 更 高 速率 执行 乘法 和 加 法 的 潜力 ， 但 是 代码 不 
能 利用 这 种 能 力 ， 即 使 是 使 用 循环 展开 也 不 能 ， 这 是 因为 我 们 将 累积 值 放 在 一 个 单独 的 变量 
acc 中 。 在 前 面 的 计算 完成 之 前 ， 都 不 能 计算 acc 的 新 值 。 虽 然 计 算 acc 新 值 的 功能 单元 能 
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够 每 个 时 钟 周期 开始 一 个 新 的 操作 ， 但 是 它 只 会 每 上 个 周期 开始 一 条 新 操作 ， 这 里 工 是 合并 
操作 的 延迟 。 现 在 我 们 要 考察 打破 这 种 顺序 相关 ， 得 到 比 延 迟 界 限 更 好 性 能 的 方法 。 


5.9.1 多 个 累积 变量 


对 于 一 个 可 结合 和 可 交换 的 合并 运算 来 说 ， 比 如 说 整数 加 法 或 乘法 ， 我 们 可 以 通过 将 
一 组 合并 运算 分 割 成 两 个 或 更 多 的 部 分 ， 并 在 最 后 合并 结果 来 提高 性 能 。 例 如 ，P, 表示 


元 素 ao， 区 a,-1 的 乘积 : 
nm 一 1 /* 2 x 2 loop unrolling */ 


| [la; void combine6(vec_ptr v, data_t *dest) 
i=0 3 
P, 二 PE, X PO,， 这 里 PE, 是 索引 值 long length = vec_length(v); 
为 偶数 的 元 素 的 乘积 ， 而 PO, 是 索引 nf 
ot data_t *data = get_vec_start(v); 
A A data_t acco = IDENT ; 
PE a PE i data_t accl = IDENT; 
wi /* Combine 2 elements at a time */ 
pO, = | | de for (i = 0; 1 < limit; i+=2) 工 
i=0 acc0 = acc0 OP datalil]; 
图 5-21 展示 的 是 使 用 这 种 方法 的 代 accl = accl OP data[i+1]; 
人 码 。 它 既 使 用 了 两 次 循环 展开 ， 以 使 每 } 
次 迭代 合并 更 多 的 元 素 ， 也 使 用 了 两 路 Pe Ng 
Ed inish any remain m 
量 acc0 中 ， 而 索引 值 为 奇数 的 元 素 累 积 acc0 = acc0 OP datalil]; 


在 变量 accl 中 。 因 此 ,我们 将 其 称 为 } 
“2 XxX2 循环 展开 ”。 同 前 面 一 样 ， 我 们 还 *dest = accO OP accil; 
包括 了 第 二 个 循环 ， 对 于 回 量 长 度 不 为 2 
的 倍数 时 ， 这 个 循环 要 累积 所 有 剩 下 的 数 图 521 运用 2X2 循环 展开 。 通过 维护 多 个 累积 变量 ， 
组 元 素 。 然 后 ， 我 们 对 acc0 和 accil 应 用 这 种 方法 利用 了 多 个 功能 单元 以 及 它们 的 流水 线 
合并 运算 ,计算 最 终 的 结果 。 能 力 

比较 只 做 循环 展开 和 既 做 循环 展开 同时 也 使 用 两 路 并 行 这 两 种 方法 ， 我 们 得 到 下 面 的 
性 能 : 





combined 在 临时 变量 中 累积 
combine5 2X1 展开 


combine6 2X2 展开 
延迟 界限 
否 吐 量 界 限 





我 们 看 到 所 有 情况 都 得 到 了 改进 ， 整 数 乘 、 浮 点 加 、 浮 点 乘 改 进 了 约 2 倍 ， 而 整数 加 
也 有 所 改进 。 最 棒 的 是 ， 我们 打破 了 由 延迟 界限 设 下 的 限制 。 处 理 需 不 再 需要 延迟 一 个 加 
法 或 乘法 操作 以 待 前 一 个 操作 完成 。 

要 理解 combine6 的 性 能 ， 我 们 从 图 5-22 所 示 的 代码 和 操作 序列 开始 。 通 过 图 5-23 
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所 示 的 过 程 ， 可 以 推导 出 一 个 模板 ,给 出 迭代 之 间 的 数据 相关 。 同 combine5 一 样 ， 这 个 
内 循环 包括 两 个 vmulsd 运算， 但 是 这 些 指令 被 翻译 成 读 写 不 同 寄存 器 的 mul 操作 ， 它 们 
之 间 没 有 数据 相关 (图 5-23b) 。 然 后 ， 把 这 个 模板 复制 w/2 次 (图 5-24)， 就 是 在 一 个 长 度 
为 n 的 向 量 上 执行 这 个 函数 的 模型 。 可 以 看 到 ,现在 有 两 条 关键 路 径 ， 一 条 对 应 于 计算 索 
引 为 偶数 的 元 素 的 乘积 (程序 值 acc0) ， 另 一 条 对 应 于 计算 索引 为 奇数 的 元 素 的 乘积 (程序 
值 acc1)。 每 条 关键 路 径 只 包含 n/2 个 操作 ， 因 此 导致 CPE 大 约 为 5. 00/2 王 2.50。 相 似 
的 分 析 可 以 解释 我 们 观察 到 的 对 于 不 同 的 数据 类 型 和 合并 运算 的 组 合 ， 延 迟 为 上 的 操作 的 
CPE 等 于 工 /2。 实 际 上 ， 程 序 正 在 利用 功能 单元 的 流水 线 能 力 ， 将 利用 率 提 高 到 2 倍 。 唯 
一 的 例外 是 整数 加 。 我 们 已 将 将 CPE 降低 到 1.0 以 下 ,但 是 还 是 有 太 多 的 循环 开销 ， 而 
无 法 达到 理论 界限 0. 50。 


Srax|srbp|srdx|xmmO|sxmml 


vmulsd (Srax, Srdx,8), %xmmO0, SxmmO 


vmulsd 8(%rax, rdx,8), Sxmml, $xmml 


addqg $2,%$rdx 
CmMpq %rdx,%rbp 


]g loop 





图 5-22 combine6 内 循环 代码 的 图 形 化 表示 。 每 次 循环 有 两 条 vmulsd 指令 ， 每 条 指令 被 翻 
译 成 一 个 load 和 一 个 mul 操作 


我 们 可 以 将 多 个 累积 变量 变换 归纳 为 将 循环 展开 次， 以 及 并 行 累积 个 值 ， 得 到 
kXk 循环 展开 。 图 5-25 显示 了 当 数 值 达 到 ==10 时 ， 应 用 这 种 变换 的 效果 。 可 以 看 到 ， 
当 R 值 足够 大 时 ， 程 序 在 所 有 情况 下 几乎 都 能 达到 吞吐 量 界限 。 整 数 加 在 &=7 时 达到 的 
CPE 为 0.54， 接 近 由 两 个 加 载 单 元 导致 的 厨 吐 量 界 限 0. 50。 整 数 乘 和 浮 点 加 在 & 宇 3 时 达 
到 的 CPE 为 1.01， 接 近 由 它们 的 功能 单元 设置 的 吞吐 量 界限 1.00。 浮 点 乘 在 A 之 10 时 达 
到 的 CPE 为 0. 51， 接 近 由 两 个 浮 点 乘法 器 和 两 个 加 载 单元 设置 的 吞吐 量 界 限 0. 50。 值 得 
注意 的 是 ， 即 使 乘法 是 更 加 复杂 的 操作 ， 我 们 的 代码 在 浮 点 乘 上 达到 的 吞吐 量 几 乎 是 浮 点 
加 可 以 达到 的 两 倍 。 

通常 ， 只 有 保持 能 够 执行 该 操作 的 所 有 功能 单元 的 流水 线 都 是 满 的 ， 程 序 才能 达到 这 
个 操作 的 否 吐 量 界 限 。 对 延迟 为 上 ， 容 量 为 C 的 操作 而 言 ， 这 就 要 求 循环 展开 因子 A 之 
C ' 工 。 比 如 ， 浮 点 乘 有 C= 二 2，L 二 5， 循环 展开 因子 就 必须 为 上 宇 10。 浮 点 加 有 C=1， 
L= 二 3， 则 在 有 宇 3 时 达到 最 大 吞吐 量 。 

在 执行 kXk 循环 展开 变换 时 ， 我 们 必须 考虑 是 否 要 保留 原始 函数 的 功能 。 在 第 2 章 
已 经 看 到 ， 补 人 码 运 算是 可 交换 和 可 结合 的 ， 其 至 是 当 洲 出 时 也 是 如 此 。 因 此 ， 对 于 整数 数 
据 类 型 ， 在 所 有 可 能 的 情况 下 ，combine6 计算 出 的 结果 都 和 combine5 计算 出 的 相同 。 
因此 ， 优 化 编译 器 潜在 地 能 够 将 combine4 中 所 示 的 代码 首先 转换 成 combine5 的 二 路 循 
环 展 开 的 版 本 ， 然 后 再 通过 引入 并 行 性 ， 将 之 转换 成 combine6 的 版 本 。 有 些 编译 器 可 以 
做 这 种 或 与 之 类 似 的 变换 来 提高 整数 数据 的 性 能 .。 


xmmg 
load 了 data[0] 
Wh | 
| [es 
ml data[1] 


区 data[2] 
a ) 重新 排列 、 简 化 和 抽象 图 5-22 的 表示 ， 
给 出 连续 迭代 之 间 的 数据 相关 datal3] 





b ) 两 个 mal 操 作 之 间 没 有 相关 


图 5-23 将 combine6 的 运算 图 5-24 ”combine6 对 一 个 长 度 为 n 的 向 量 进行 操 作 的 
抽象 成 数据 流 图 数据 流 表示 。 现 在 有 两 条 关键 路 径 ， 每 条 关 
键 路 径 包 含 n/2 个 操作 
6 
$ 
4 | —$— double * 
中 | NN te 
-一 long 
5 | NA ee 
a 
] 所 = Pe 一 一 = re 
0 
| 2 3 4 5 6 7 8 9 10 
展开 次 数 
图 5-25 kXk 循 环 展开 的 CPE 性能。 使 用 这 种 变换 后 ， 所 有 的 CPE 都 有 所 


改进 ， 接 近 或 达到 其 吞吐 量 界 限 


另 一 方面 ， 浮 点 乘法 和 加 法 不 是 可 结合 的 。 因 此 ， 由 于 四 售 五 人 或 溢出 ，combine5 
和 combine6 可 能 产生 不 同 的 结果 。 人 例如， 假想 这 样 一 种 情况 ， 所 有 索引 值 为 偶数 的 元 素 
都 是 绝对 值 非常 大 的 数 ， 而 索引 值 为 奇数 的 元 素 都 非常 接近 于 0.0。 那 么 ， 即 使 最 终 的 乘 
积 P, 不 会 游 出 ， 乘 积 PE, 也 可 能 上 洲 ， 或 者 PO, 也 可 能 下 滋 。 不 过 在 大 多 数 现实 的 程序 
中 ， 不 太 可 能 出 现 这 样 的 情况 。 因 为 大 多 数 物 理 现象 是 连续 的 ， 所 以 数值 数据 也 趋向 于 相 
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当 平 滑 ， 不 会 出 什么 问题 。 即 使 有 不 连续 的 时 候 ， 它 们 通常 也 不 会 导致 前 面 描述 的 条 件 那 
样 的 周期 性 模式 。 按 照 严 格 顺序 对 元 素 求 积 的 准确 性 不 太 可 能 从 根本 上 比 “ 分 成 两 组 独立 
求 积 ， 然 后 再 将 这 两 个 积 相 乘 ”更 好 。 对 大 多 数 应 用 程序 来 说 ， 使 性 能 翻 倍 要 上 比 冒 对 奇怪 
的 数据 模式 产生 不 同 的 结果 的 风险 更 重要 。 但 是 ， 程 序 开发 人 员 应 该 与 潜在 的 用 户 协 商 ， 
看 看 是 否 有 特殊 的 条 件 ， 可 能 会 导致 修改 后 的 算法 不 能 接受 。 大 多 数 编译 右 并 不 会 尝试 对 
浮 点 数 代码 进行 这 种 变换 ， 因 为 它们 没有 办 法 判断 引入 这 种 会 改变 程序 行为 的 转换 所 带 来 
的 风险 ， 不 论 这 种 改变 是 多 么 小 。 


5.9.2 重新 结合 变 


现在 来 探讨 男 一 种 打破 顺序 相关 从 而 使 性 能 提高 到 延迟 界限 之 外 的 方法 。 我 们 看 到 过 
做 kX1 循环 展开 的 combine5 没有 改 变 合并 癌 量 元 紊 形成 和 或 者 乘积 中 执行 的 操作 。 不 
过 ， 对 代码 做 很 小 的 改动 ， 我 们 可 以 从 根本 上 改变 合并 执行 的 方式 ， 也 极 大 地 提高 程序 的 
性 能 。 

图 5-26 给 出 了 一 个 函数 combine7， 它 与 combine5 的 展开 代码 (图 5-16) 的 唯一 区 别 
在 于 内 循环 中 元 素 合 并 的 方式 。 在 combine5 中 ， 合 并 是 以 下 面 这 条 语句 来 实现 的 


12 acc = (acc OP data[i]) OP data[Li+l] ; 
而 在 combine7 中 ， 合 并 是 以 这 条 语句 来 实现 的 
12 acc = acc OP (data[i]j OP datal[i+1]); 


差别 仅 在 于 两 个 括号 是 如 何 放置 的 。 我 们 称 之 为 重新 结合 变换 (reassociation transforma- 
tion) ， 因 为 括号 改变 了 疝 量 元 素 与 累积 值 acc 的 合并 顺序 ,产生 了 我 们 称 为 “2X1la” 的 
循环 展开 形式 。 


/* 2 x la loop unrolling */ 

void combine7(vec_ptr v, data_t *dest) 
long i; 
long length = vec_length(v); 
long limit = length-!1; 
data_t *data = get_vec_start(v); 
data_t acc = IDENT; 


/* Combine 2 elements at a time */ 
for (i = 0; 1 < limit; 1+=2) { 

acc = acc OP (data[i] OP datal[i+1]); 
} 


/* Finish any remaining elements */ 
for (; 1 < Length; i++) { 
acc = acc OP data[ij]; 


上 


*dest = acc; 





图 5-26 运用 2X1a 循环 展开 ， 重 新 结合 合并 操作 。 这 种 方法 增加 了 可 以 并 行 执行 的 操作 数量 
对 于 未 经 训练 的 人 来 说 ， 这 两 个 语句 可 能 看 上 去 本 质 上 是 一 样 的 , 但 是 当 我 们 测量 
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CPE 的 时 候 ， 得 到 令 人 吃惊 的 结果 


combine4 累积 在 临时 变量 中 
combine5 2X1 展开 


combine6 2X2 展开 
combine7 2X la 展开 
延迟 界限 

否 吐 量 界限 


整数 加 的 性 能 几乎 与 使 用 kX1 展开 的 版 本 (combine5) 的 性 能 相同 ， 而 其 他 三 种 情况 
则 与 使 用 并 行 累积 变量 的 版 本 (combine6) 相 同 ， 是 kX1 扩展 的 性 能 的 两 信 。 这 些 情况 已 
经 突破 了 延迟 界限 造成 的 限制 。 

图 5-27 说 明了 combine7 内 循环 的 代码 (对 于 合并 操作 为 有 乘法， 数据 类 型 为 double 
的 情况 ) 是 如 何 被 译 码 成 操作 ， 以 及 由 此 得 到 的 数据 相关 。 我 们 看 到 ,来自 于 vmovsd 和 
第 一 个 vmulsd 指令 的 load 操作 从 内 存 中 加 载 向 量 元 素 i 和 i 十 1， 第 一 个 mul 操作 把 它 
们 乘 起 来 。 然 后 ， 第 二 个 mul 操作 把 这 个 结果 乘 以 累积 值 acc。 图 5-28a 给 出 了 我 们 如 何 
对 图 5-27 的 操作 进行 重新 排列 、 优 化 和 抽象 ， 得 到 表示 一 次 迭代 中 数据 相关 的 模板 (图 5- 
28b)。 对 于 combine5 和 combine7 的 模板 ， 有 两 个 1oad 和 两 个 mul 操作 ,但 是 只 有 一 个 
mul 操作 形成 了 循环 寄存 器 间 的 数据 相关 链 。 然 后 ,. 把 这 个 模板 复制 n/2 次 ， 给 出 了 nn 个 
向 量 元 素 相 乘 所 执行 的 计算 (图 5-29)， 我 们 可 以 看 到 关键 路 径 上 只 有 n/2 个 操作 。 每 次 迭 
代 内 的 第 一 个 乘法 都 不 需要 等 待 前 一 次 迭代 的 累积 值 就 可 以 执行 。 因 此 ， 最 小 可 能 的 CPE 
减少 了 2 倍 。 





vmovsd (%rax, Srdx,8), 和 xmmO 


vmovsd 8(%rax,Srdx,8), Sxmm0, SxmmO0 


Vmovsd $xmm0, Sxmml, $xmml 


addg $2,%rdx 


CmPG %rdx,$rbp 





jg loop 
eax [trop [srox [ormo [Sm 
图 5-27 combine7 内 循环 代码 的 图 形 化 表示 。 每 次 迭代 被 译 码 成 与 combine5 或 


combine6 类 似 的 操作 ,但 是 数据 相关 不 同 
图 5-30 展示 了 当 数 值 达到 有 = 二 10 时 ， 实 现 kX 1a 循环 展开 并 重新 结合 变换 的 效果 。 可 


以 看 到 ， 这 种 变换 带 来 的 性 能 结果 与 Xk 循环 展开 中 保持 & 个 累积 变量 的 结果 相似 。 对 
所 有 的 情况 来 说 ， 我 们 都 接近 了 由 功能 单元 造成 的 厨 吐 量 界 限 。 
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data[0] 


Gata[1l] 





data[2] 





a ) 重新 排列 、 简 化 和 抽象 图 5-27 的 表示 ， i 
给 出 连续 迭代 之 间 的 数据 相关 ee 





data[2i] 


datalit+1] i data[n-2] | 






data{n-1] 


b ) 上 面 的 mal 操 作 让 两 个 二 向 量 元 素 相 乘 ， 而 
下 面 的 mul 操 作 将 前 面 的 结果 乘 以 循环 变量 acc 


图 5-28 将 combine7 的 操作 图 5-29 ”combine7 对 一 个 长 度 为 元 的 向 量 进行 操作 的 数 
抽象 成 数据 流 图 据 流 表示 。 我 们 只 有 一 条 关键 路 径 ， 它 只 包含 
n/2 个 操作 
6 


5 
4 | —®— double * 
| 一 加 一 double + 


Br 7 一 全- 一- long * 
| es 
| 
] 僻 i So ms -ES 
0 
] 4 3 二 5 6 0 8 9 10 
展开 次 数 K 
图 5-30 &xla 循环 展开 的 CPE 性能。 在 这 种 变换 下 ， 所 有 的 CPE 都 有 所 


改进 ， 几 乎 达到 了 它们 的 吞吐 量 界限 


在 执行 重新 结合 变换 时 ， 我 们 又 一 次 改变 向 量 元 素 合 并 的 顺序 。 对 于 整数 加 法 和 乘 
法 ， 这 些 运 算是 可 结合 的 ， 这 表示 这 种 重新 变换 顺序 对 结果 没有 影响 。 对 于 浮 点 数 情况 ， 
必须 再 次 评估 这 种 重新 结合 是 否 有 可 能 严重 影响 结果 。 我 们 会 说 对 大 多 数 应 用 来 说 ， 这 种 
差别 不 重要 。 


总 的 来 说 ， 重 新 结合 变换 能 够 减少 计算 中 关键 路 径 上 操作 的 数量 ， 通 过 更 好 地 利用 功能 
单元 的 流水 线 能 力 得 到 更 好 的 性 能 。 大 多 数 编译 器 不 会 和 尝试 对 浮 点 运算 做 重新 结合 ， 因 为 这 
些 运算 不 保证 是 可 结合 的 。 当 前 的 GCC 版 本 会 对 整数 运算 执行 重新 结合 ， 但 不 是 总 有 好 的 
效果 。 通 常 ， 我 们 发 现 循环 展开 和 并 行 地 累积 在 多 个 值 中 ， 是 提高 程序 性 能 的 更 可 徘 的 方法 。 
度 气 | 练习 题 5.8 考虑 下 面 的 计算 浆 个 双 精 度数 组 成 的 数组 乘积 的 函数 。 我 们 3 次 展开 这 

个 循环 。 

double aprod(double a[j ，Long n) 

t 

long i; 

double Xx, y, Z; 

double r = 1; 

for (i = 0: i < n-2: i+= 3) 1{ 

x = a[li]; y = a[li+1]; z = a[i+2]; 
r=Ir*X* Vy* 2Z; /* Product computation */ 
} 
for (; i < n; i++) 

r *= al[il]:; 
return 工 ; 


对 于 标记 为 Product computation 的 行 ， 可 以 用 括号 得 到 该 计算 的 五 种 不 同 的 
综合。 如 下 所 示 : 
((r * XxX) * y) * ZzZ; /* AL */ 
(r * (Xx * y)) * ZzZ; /* A2 */ 
r* ((xX* y) * 2Z); /* A3 */ 
斌 率 《 写 守 (¥  ))S / 
(r * XxX) * (y * 2Z); /* A5 */ 


假设 在 一 台 浮 点 数 乘法 延迟 为 5 个 时 钟 周 期 的 机 器 上 和 运行 这 些 函 数 。 确 定 由 乘法 的 数据 
相关 限定 的 CPE 的 下 界 。( 提 示 : 画 出 每 次 迭代 如 何 计 算 工 的 图 形 化 表示 会 所 帮助 。) 


网 
中 1 IN 上 攻 





到 胎 :二 2 贡 el 有 silyle 胃 用 向 量 指令 达到 更 高 的 并 行 度 
就 像 在 3.1 节 中 讲述 的 ，Intel 在 1999 年 引入 了 SSE 指令 ，SSE 是 “Streaming 
SIMD Extensions( 流 SIMD 扩展 )” 的 缩写 ， 而 SIMD( 读 作 “sim-dee”) 是 “Single-In- 
struction，Multiple-Data( 单 指令 多 数据 )” 的 缩写 。SSE 功能 历经 几 代 ， 最 新 的 版 本 为 
高 级 向 量 扩 展 (advanced vector extension) 或 AVX 。SIMD 执行 模型 是 用 单条 指令 对 整个 向 
量 数据 进行 操作 。 这 些 向 量 保存 在 一 组 特殊 的 向 量 寄存 器 (vector register) 中， 名 字 为 S 
ymm0~%ymm15。 目 前 的 AVX 向 量 寄存 器 长 为 32 字 节 ， 因 此 每 一 个 都 可 以 存放 8 个 32 位 数 
或 4 个 64 位 数 ， 这 些 数据 既 可 以 是 整数 也 可 以 是 浮 点 数 。AVX 指令 可 以 对 这 些 寄 存 器 执 
行 向 量 操作 ， 比 如 并 行 执行 8 组 数值 或 4 组 数值 的 加 法 或 乘法 。 例 如 ， 如 果 YMIM 寄存 
器 $ymm0 包含 8 个 单 精 度 浮 点 数 ， 用 ao，…，ar 表示 ， 而 %$rcx 包含 8 个 单 精 度 浮 点 数 的 内 
存 地 址 ， 用 b。，…，br 表示， 那么 指令 


vmulps (%rcx), hymmO0O, %ymml 
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8 个 乘积 保存 到 向 量 寄 存 器 symml。 我 们 看 到 ， 一 条 指令 能 够 产生 对 多 个 数据 值 的 计算 ， 
因此 称 为 “SIMD”。 

GCC 支持 对 C 语言 的 扩展 ， 能 够 让 程序 员 在 程序 中 使 用 向 量 操 作 ， 这 些 操 作 能 够 
被 编译 成 AVX 的 向 量 指令 (以 及 基于 早 前 的 SSE 指令 的 代码 )。 这 种 代码 风格 比 直接 用 
汇编 语言 写 代码 要 好 ， 因 为 GCC 还 可 以 为 其 他 处 理 器 上 的 向 量 指令 产生 代码 。 

使 用 GCC 指令 、 循 环 展开 和 多 个 累积 变量 的 组 合 ， 我 们 的 合并 函数 能 够 达到 下 面 的 性 能 : 


标量 10X10 


标量 吞吐 量 界限 
问 量 8X8 
问 量 奉 吐 量 界限 





上 表 中 ， 第 一 组 数字 对 应 的 是 按照 combine6 的 风格 编写 的 传统 标量 代码 ， 循 环 展 开 因 
子 为 10， 并 维护 10 个 累积 变量 。 第 二 组 数字 对 应 的 代码 编写 形式 可 以 被 GCC 编译 成 
AVX 向 量 代 码 。 除 了 使 用 向 量 操作 外 ， 这 个 版 本 也 进行 了 循环 展开 ， 展 开 因 子 为 8， 并 
维护 8 休 不 同 的 向 量 累积 变量 。 我 们 给 出 了 32 位 和 64 位 数字 的 结果 ， 因 为 向 量 指令 在 
第 一 种 情况 中 达到 8 路 并 行 ， 而 在 第 二 种 情况 中 只 能 达到 4 路 并 行 。 

可 以 看 到 ， 向 量 代 码 在 32 位 的 4 种 情况 下 几乎 都 获得 了 8 倍 的 提升 ， 对 于 64 位 来 
说 ， 在 其 中 的 3 种 情况 下 获得 了 4 倍 的 提升 。 只 有 长 整数 乘法 代码 在 我 们 尝试 将 其 表示 
为 向 量 代码 时 性 能 不 佳 。AVX 指令 集 不 包括 64 位 整数 的 并 行 乘法 指令 ， 因 此 GCC 无 
法 为 此 种 情况 生成 向 量 代码 。 使 用 向 量 指令 对 合并 操作 产生 了 新 的 吞吐 量 界 限 。 与 标量 
界限 相 比 ，32 位 操作 的 新 界限 小 了 8 倍 ，64 位 操作 的 新 界限 小 了 4 倍 。 我们 的 代码 在 
几 种 数据 类 型 和 操作 的 组 合 上 接近 了 这 些 界 限 。 


5. 10 优化 合并 代码 的 结果 小 结 


我 们 极 大 化 对 向 量 元 素 加 或 者 乘 的 图 数 性 能 的 努力 获得 了 成 功 。 下 表 总 结 了 对 于 标量 
代码 所 获得 的 结果 ， 没 有 使 用 AVX 向 量 指令 提供 的 向 量 并 行 性 : 


combinel 


combine6 2X2 循环 展开 


10X 10 循环 展开 


延迟 界限 
耕 吐 量 界 限 

使 用 多 项 优化 技术 ， 我 们 获得 的 CPE 已 经 接近 于 0.50 和 1.00 的 吞吐 量 界限 ， 只 受 
限于 功能 单元 的 容量 。 与 原始 代码 相 比 提升 了 10 一 20 倍 ， 且 使 用 普通 的 C 代码 和 标准 编 
译 需 就 获得 了 所 有 这 些 改进 。 重 写 代 码 利 用 较 新 的 SIMD 指令 得 到 了 将 近 4 倍 或 8 倍 的 性 
能 提升 。 比 如 单 精度 乘法 ，CPE 从 初 值 11. 14 降 到 了 0.06， 整 体 性 能 提升 超过 180 倍 。 
这 个 例子 说 明 现 代 处 理 器 具有 相当 的 计算 能 力 ， 但 是 我 们 可 能 需要 按 非常 程式 化 的 方式 来 
编写 程序 以 便 将 这 些 能 力 诱发 出 来 。 





5. 11 一 些 限 制 因素 


我 们 已 经 看 到 在 一 个 程序 的 数据 流 图 表示 中 ， 关 键 路 径 指 明了 执行 该 程序 所 需 时 间 的 
一 个 基本 的 下 界 。 也 就 是 说 ， 如 果 程 序 中 有 某 条 数据 相关 链 ， 这 条 链 上 的 所 有 延迟 之 和 等 
于 工 ,那么 这 个 程序 至 少 需要 工 个 周期 才能 执行 完 。 

我 们 还 看 到 功能 单元 的 吞吐 量 界 限 也 是 程序 执行 时 间 的 一 个 下 界 。 也 就 是 说 ， 假 设 一 
个 程序 一 共 需 要 N 个 某 种 运算 的 计算 ， 而 微 处 理 顺 只 有 C 个 能 执行 这 个 操作 的 功能 单元 ， 
并 且 这 些 单 元 的 发 射 时 间 为 IT。 那么 ， 这 个 程序 的 执行 至 少 需要 六 1/C 个 周期 。 

在 本 节 中 ， 我 们 会 考虑 其 他 一 些 制约 程序 在 实际 机 各 上 性 能 的 因素 。 


5. 11.1 寄存 器 溢出 


循环 并 行 性 的 好 处 受 汇 编 代 码 描 述 计算 的 能 力 限 制 。 如 果 我 们 的 并 行 度 p 超过 了 可 用 
的 寄存 器 数量 ， 那 么 编译 器 会 诉 诸 溢 出 (spilling)， 将 某 些 临时 值 存放 到 内 存 中 ,通常 是 在 
运行 时 堆栈 上 分 配 空间 。 举 个 例子 ， 将 combine6 的 多 累积 变量 模式 扩展 到 R 王 10 和 & 一 
20， 其 结果 的 比较 如 下 表 所 示 : 


combine6 


10X10 循环 展开 
20X20 循环 展开 


吞吐 量 界 限 


我 们 可 以 看 到 对 这 种 循环 展开 程度 的 增加 没有 改善 CPE， 有 些 甚 至 还 变 差 了 。 现 代 
x86-64 处 理 器 有 16 个 寄存 器 ， 并 可 以 使 用 16 个 YMM 寄存 需 来 保存 浮 点 数 。 一 旦 循环 变 
量 的 数量 超过 了 可 用 寄存 顺 的 数量 ， 程 序 就 必须 在 栈 上 分 配 一 些 变 量 。 

例如 ， 下 面 的 代码 片段 展示 了 在 10X10 循环 展开 的 内 循环 中 ， 累 积 变量 acc0 是 如 何 
更 新 的 : 


Updating of accumulator accO in 10 x 10 urolliling 
vmulsd (%rdx), %xmmO, hxmmO accO *= data[i] 


我 们 看 到 该 累积 变量 被 保存 在 寄存 器 $xmm0 中 ， 因 此 程序 可 以 简单 地 从 内 存 中 读 取 data 
[il， 并 与 这 个 寄存 器 相 乘 。 
与 之 相 比 ，20X20 循环 展开 的 相应 部 分 非常 不 同 : 


Updating of accumulator accoO in 20 x 20 unrolling 
vmovsd 40(%rsp), hxmmO 

vmulsd (%rdx), %xmmO0O, hxmmO 

vmovsd hxmm0, 40(%hrsp) 


累积 变量 保存 为 栈 上 的 一 个 局 部 变量 ， 其 位 置 距离 栈 指针 偏 移 量 为 40。 程 序 必须 从 内 存 中 
读 取 两 个 数值 : 累积 变量 的 值 和 data[i] 的 值 ， 将 两 者 相 乘 后 ， 将 结果 保存 回 内 存 。 

一 旦 编译 器 必须 要 诉 诸 寄 存 器 溢出 ， 那 么 维护 多 个 累积 变量 的 优势 就 很 可 能 消失 。 六 
运 的 是 ，x86-64 有 足够 多 的 寄存 器 ， 大 多 数 循 环 在 出 现 寄存 需 滋 出 之 前 就 将 达到 厨 吐 量 
限制 。 
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5. 11.2 分 支 预测 和 预测 错误 处 罚 


在 3. 6. 6 节 中 通过 实验 证 明 ， 当 分 支 预测 逻辑 不 能 正确 预测 一 个 分 支 是 否 要 跳 转 的 时 
候 ， 条 件 分 支 可 能 会 招致 很 大 的 预测 错误 处 罚 。 既 然 我 们 已 经 学 习 到 了 一 些 关 于 处 理 堪 是 
如 何 工 作 的 知识 ， 就 能 理解 这 样 的 处 罚 是 从 哪里 产生 出 来 的 了 。 

现代 处 理 器 的 工作 远 超前 于 当前 正在 执行 的 指令 ， 从 内 存 读 新 指令 ， 译 码 指 令 ， 以 确 
定 在 什么 操作 数 上 执行 什么 操作 。 只 要 指令 遵循 的 是 一 种 简单 的 顺序 ， 那 么 这 种 指令 流水 
线 化 (instruction pipelining) 就 能 很 好 地 工作 。 当 遇 到 分 支 的 时 候 ， 处 理 器 必须 猜测 分 支 该 
往 哪个 方向 走 。 对 于 条 件 转移 的 情况 ， 这 意味 着 要 预测 是 否 会 选择 分 支 。 对 于 像 间接 跳 转 
( 跳 转 到 由 一 个 跳 转 表 条 目 指定 的 地 址 ) 或 过 程 返回 这 样 的 指令 ， 这 意味 着 要 预测 目标 地 
址 。 在 这 里 ， 我 们 主要 讨论 条 件 分 文 。 

在 一 个 使 用 投机 执行 (speculative execution) 的 处 理 器 中 ， 处 理 器 会 开始 执行 预测 的 分 
支 目标 处 的 指令 。 它 会 避免 修改 任何 实际 的 寄存 器 或 内 存 位 置 ， 直 到 确定 了 实际 的 结果 。 
如 果 预 测 正确 ， 那 么 处 理 器 就 会 “提交 ”投机 执行 的 指令 的 结果 ， 把 它们 存储 到 寄存 融 或 
内 存 。 如 果 预 测 错误 ， 处 理 器 必须 丢弃 掉 所 有 投机 执行 的 结果 ， 在 正确 的 位 置 ， 重 新 开始 
取 指 令 的 过 程 。 这 样 做 会 引起 预测 错误 处 罚 ， 因 为 在 产生 有 用 的 结果 之 前 ， 必 须 重 新 填充 
指令 流水 线 。 

在 3.6.6 节 中 我 们 看 到 ， 最 近 的 x86 处 理 器 (包含 所 有 可 以 执行 x86-64 程序 的 处 理 
器 ) 有 条 件 传 送 指令 。 在 编译 条 件 语 句 和 表达 式 的 时 候 ，GCC 能 产生 使 用 这 些 指令 的 代 
码 ， 而 不 是 更 传统 的 基于 控制 的 条 件 转移 的 实现 。 翻 译 成 条 件 传 送 的 基本 思想 是 计算 出 一 
个 条 件 表 达 式 或 语句 两 个 方向 上 的 值 ， 然 后 用 条 件 传 送 选择 期 望 的 值 。 在 4. 5.7 市 中 我 们 
看 到 ， 条 件 传送 指令 可 以 被 实现 为 普通 指令 流水 线 化 处 理 的 一 部 分 。 没 有 必要 猜测 条 件 是 
否 满足 ， 因 此 猜测 错误 也 没有 处 罚 。 

那么 一 个 C 语言 程序 员 怎 么 能 够 保证 分 支 预测 处 罚 不 会 阻碍 程序 的 效率 呢 ? 对 于 参考 
机 来 说 ， 预 测 错误 处 罚 是 19 个 时 钟 周 期 ， 赌 注 很 高 。 对 于 这 个 问题 没有 简单 的 答案 ， 但 
是 下 面 的 通用 原则 是 可 用 的 。 

1. 不 要 过 分 关心 可 预测 的 分 支 

我 们 已 经 看 到 错误 的 分 支 预测 的 影响 可 能 非常 大 ， 但 是 这 并 不 意味 着 所 有 的 程序 分 支 
都 会 减缓 程序 的 执行 。 实 际 上 ， 现 代 处 理 器 中 的 分 支 预测 逻辑 非常 善于 辨别 不 同 的 分 文 指 
令 的 有 规律 的 模式 和 长 期 的 趋势 。 例 如 ， 在 合并 函数 中 结束 循环 的 分 支 通常 会 被 预测 为 选 
择 分 支 ， 因 此 只 在 最 后 一 次 会 导致 预测 错误 处 罚 。 

再 来 看 另 一 个 例子 ， 当 从 combine2 变化 到 combine3 时 ， 我们 把 限 数 get_vec_ele- 
ment 从 了 盟 数 的 内 循环 中 拿 了 出 来 ， 考虑 一 下 我 们 观察 到 的 结果 ， 如 下 所 示 


十 * 
combine2 移动 vec length 7. 02 9. 03 9. 02 11.03 
combine3 直接 数据 访问 Eg 9. 02 9; 02 11.03 

CPE 基本 上 没 变 ， 即 使 这 个 转变 消除 了 每 次 迭代 中 用 于 检查 向 量 索 引 是 否 在 界限 内 的 两 个 


条 件 语句 。 对 这 个 函数 来 说 ， 这 些 检测 总 是 确定 案 引 是 在 界 内 的 ， 所 以 是 高 度 可 预测 的 。 
作为 一 种 测试 边界 检查 对 性 能 影响 的 方法 ,考虑 下 面 的 合并 代码 ， 修 改 combine4 的 











男 数 方法 
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内 循环 ， 用 执行 get vec element 代码 的 内 联 函 数 结果 替换 对 数据 元 素 的 访问 。 我 们 称 
这 个 新 版 本 为 combine4b。 这 段 代 码 执 行 了 边界 检查 ， 还 通过 向 量 数据 结构 来 引用 向 量 
元 素 。 


/* Include bounds check in loop */ 


1 

2 void combine4b(vec_ptr v, data_t *dest) 
3 攻 

4 long i; 

5 long length = vec_length(v); 

6 data_t acc = IDENT ; 

7 

8 for (i = 0; i < length; i++) { 

9 if (i >= 0 && i < v->len) { 
10 acc = acc OP v->data[i]; 
11 

12 } 

13 *dest = acc; 

14 


然后 ,我 们 直接 比较 使 用 和 不 使 用 边界 检查 的 函数 的 CPE: 


疯 数 方法 





combined 无 边界 检查 1. 27 3.01 3. 01 5.0 
对 整数 加 法 来 说 ， 市 边界 检测 的 版 本 会 慢 一 点 ， 但 对 其 他 三 种 情况 来 说 ,性 能 是 一 样 的 。 
这 些 情 况 受 限 于 它们 各 自 的 合并 操作 的 延迟 。 执 行 边界 检测 所 需 的 额外 计算 可 以 与 合并 操 
作 并 行 执行 。 处 理 顺 能 够 预测 这 些 分 支 的 结果 ， 所 以 这 些 求 值 都 不 会 对 形成 程序 执行 中 关 
键 路 径 的 指令 的 取 指 和 处 理 产 生 太 大 的 影 啊 。 

2. 书写 适合 用 条 件 传送 实现 的 代码 

分 支 预测 只 对 有 规律 的 模式 可 行 。 程 序 中 的 许多 测试 是 完全 不 可 预测 的 ， 依 赖 于 数据 
的 任意 特性 ， 例 如 一 个 数 是 负数 还 是 正 数 。 对 于 这 些 测 试 ， 分 文 预测 逻辑 会 处 理 得 很 精 
糕 。 对 于 本 质 上 无 法 预测 的 情况 ， 如 果 编 译 需 能 够 产生 使 用 条 件数 据 传 送 而 不 是 使 用 条 件 
控制 转移 的 代码 ， 可 以 极 大 地 提高 程序 的 性 能 。 这 不 是 C 语言 程序 员 可 以 直接 控制 的 ， 但 
是 有 些 表达 条 件 行 为 的 方法 能 够 更 直接 地 被 翻译 成 条 件 传送 ， 而 不 是 其 他 操作 

我 们 发 现 GCC 能 够 为 以 一 种 更 “功能 性 的 ”风格 书写 的 代码 产生 条 件 传送 ， 在 这 种 
风格 的 代码 中 ， 我 们 用 条 件 操 作 来 计算 值 ， 然 后 用 这 些 值 来 更 新 程序 状态 ， 这 种 风格 对 立 
于 一 种 更 “命令 式 的 ”风格 ， 这 种 风格 中 ， 我 们 用 条 件 语句 来 有 选择 地 更 新 程序 状态 。 

这 两 种 风格 也 没有 严格 的 规则 ， 我 们 用 一 个 例子 来 说 明 。 假 设 给 定 两 个 整数 数组 a 和 
b， 对 于 每 个 位 置 i;， 我 们 想 将 aLij 设 置 为 aLi 和 bLij] 中 较 小 的 那 一 个 ， 而 将 bLij 设 置 为 
两 者 中 较 大 的 那 一 个 。 

用 命令 式 的 风格 实现 这 个 函数 是 检查 每 个 位 置 i?， 如 果 它 们 的 顺序 与 我 们 想 要 的 不 同 ， 
就 交换 两 个 元 素 : 

1 /* Rearrange two vectors so that for each i, bli] >= ali] */ 


2 void minmaxi(long al[l], long b[], long n) { 
3 long i; 
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4 for (i = 0; i <n; i++) { 
5 if Cali] > BI1]) { 

6 long t = alil]; 

7 a[i] = b[i]; 

8 b[li] = t; 

9 

0 

1 


} 


在 随机 数据 上 测试 这 个 函数 ， 得 到 的 CPE 大 约 为 13. 50， 而 对 于 可 预测 的 数据 ，CPE 
为 2.5 一 3.5， 其 预测 错误 惩罚 约 为 20 个 周期 。 

用 功能 式 的 风格 实现 这 个 函数 是 计算 每 个 位 置 ; 的 最 大 值 和 最 小 值 ， 然 后 将 这 些 值 分 
别 赋 给 aLzj 和 bLij: 


/* Rearrange two vectors so that for each i, bl[i] >= a[i] */ 
void minmax2(long a[], long b[], long n) + 
long 工 ; 
for (i = 0; i < n; i++) { 
long min = a[i] < b[i] ? a[li] : b[il]; 
long max = a[li] < bli] ? b[i] : al[lil]; 
a[i] = min; 
b[i] = max; 


‘OO 0 NN Om LU No 一 


} 


对 这 个 函数 的 测试 表明 无 论 数据 是 任意 的 ， 还 是 可 预测 的 ，CPE 都 大 约 为 4.0。( 我 
们 还 检查 了 产生 的 汇编 代码 ， 确 认 它 确实 使 用 了 条 件 传送 。) 

在 3.6.6 节 中 讨论 过 ， 不 是 所 有 的 条 件 行为 都 能 用 条 件数 据 传 送 来 实现 ， 所 以 无 可 避 
免 地 在 某 些 情况 中 ， 程 序 员 不 能 避免 写 出 会 导致 条 件 分 支 的 代码 ， 而 对 于 这 些 条 件 分 支 ， 
处 理 器 用 分 支 预测 可 能 会 处 理 得 很 糟糕 。 但 是 ， 正 如 我 们 讲 过 的 ， 程 序 员 方面 用 一 点 点 聪 
明 ， 有 时 就 能 使 代码 更 容易 被 翻译 成 条 件数 据 传 送 。 这 需要 一 些 试验 ， 写 出 函数 的 不 同 版 
本 ， 然 后 检查 产生 的 汇编 代码 ， 并 测试 性 能 。 
评弹 练习 题 5.9 对 于 归并 排序 的 合并 步骤 的 传统 的 实现 需要 三 个 循环 [98]: 


Lp 


1 void merge(long srci[], long src2[], long dest[], long n) { 
2 long il = 0; 

3 long i2 = 0; 

4 long id = 0; 

- While (社区 五 < n) 

6 if (srci[li1i] < src2Ti2]) 

7 dest[id++] = srci[i1i++]; 
8 else 

9 destlid++] = src2[i2++]; 
10 } 

11 While (il < n) 

12 dest [id++] = srci[ii++]; 

13 while (i2 < n) 

14 dest [id++] = src2[i2++]; 

15 } 


对 于 把 变量 i1 和 i2 与 n 做 比较 导致 的 分 支 ， 有 很 好 的 预测 性 能 一 一 唯一 的 预测 错误 
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发 生 在 它们 第 一 次 变 成 错误 时 。 另 一 方面 ， 值 srcl[i1l] 和 src2[i2] 之 间 的 比较 (第 6 
行 )， 对 于 通常 的 数据 来 说 ， 都 是 非常 难以 预测 的 。 这 个 比较 控制 一 个 条 件 分 支 ， 运 
行 在 随机 数据 上 时 ， 得 到 的 CPE 大 约 为 15.0( 这 里 元 素 的 数量 为 22) 。 

重 写 这 段 代 码 ， 使 得 可 以 用 一 个 条 件 传 送 语句 来 实现 第 一 个 循环 中 条 件 语句 (第 
6 一 9 行 ) 的 功能 。 


5. 12 理解 内 存 性 能 


到 目前 为 止 我 们 写 的 所 有 代码 ， 以 及 运行 的 所 有 测试 ， 只 访问 相对 比较 少量 的 内 存 。 
例如 ， 我 们 都 是 在 长 度 小 于 1000 个 元 素 的 向 量 上 测试 这 些 合 并 函数 ， 数 据 量 不 会 超过 
8000 个 字 节 。 所 有 的 现代 处 理 器 都 包含 一 个 或 多 个 高 速 缓存 (cache) 存 储 器 ， 以 对 这 样 少 
量 的 存储 器 提供 快速 的 访问 。 本 节 会 进一步 研究 涉及 加 载 ( 从 内 存 读 到 寄存 器 ) 和 存储 (从 
寄存 器 写 到 内 存 ) 操 作 的 程序 的 性 能 ， 只 考虑 所 有 的 数据 都 存放 在 高 速 绥 存 中 的 情况 。 在 
第 6 章 ， 我 们 会 更 详细 地 探究 高 速 缓存 是 如 何 工 作 的 ， 它 们 的 性 能 特性 ， 以 及 如 何 编 写 充 
分 利用 高 速 缓存 的 代码 。 

如 图 5-11 所 示 ， 现 代 处 理 器 有 专门 的 功能 单元 来 执行 加 载 和 存储 操作 ， 这 些 单元 有 
内 部 的 缓冲 区 来 保存 未 完成 的 内 存 操作 请 求 集合 。 例 如 ， 我 们 的 参考 机 有 两 个 加 载 单元 ， 
每 一 个 可 以 保存 多 达 72 个 未 完成 的 读 请 求 。 它 还 有 一 个 存储 单元 ， 其 存储 缓冲 区 能 保存 
最 多 42 个 写 请 求 。 每 个 这 样 的 单元 通常 可 以 每 个 时 钟 周期 开始 一 个 操作 。 


5. 12. 1 加 载 的 性 能 


一 个 包含 加 载 操作 的 程序 的 性 能 既 依 赖 于 流水 线 的 能 力 ， 也 依赖 于 加 载 单元 的 延迟 。 
在 参考 机 上 运行 合并 操作 的 实验 中 ， 我 们 看 到 除了 使 用 SIMD 操作 时 以 外 ， 对 任何 数据 类 
型 组 合 和 合并 操作 来 说 ，CPE 从 没有 到 过 0. 50 以 下 。 一 个 制约 示例 的 CPE 的 因素 是 ， 对 
于 每 个 被 计算 的 元 素 ， 所 有 的 示例 都 需要 从 内 存 读 一 个 值 。 对 两 个 加 载 单 元 而 言 ， 其 每 个 
时 钟 周 期 只 能 启动 一 条 加 载 操作 ， 所 以 CPE 不 可 能 小 于 0. 50。 对 于 每 个 被 计算 的 元 素 必 
须 加 载 个 值 的 应 用 ， 我 们 不 可 能 获得 低 于 /2 的 CPE( 例 如 参见 家 庭 作业 5. 15 ) 。 

到 目前 为 止 ， 我 们 在 示例 中 还 没有 看 到 加 载 操 作 的 延迟 产生 的 影响 。 加 载 操 作 的 地 址 
只 依赖 于 循环 索引 i， 所 以 加 载 操 作 不 会 成 为 限制 性 能 的 关键 路 径 的 一 部 分 。 

要 确定 一 台 机 器 上 加 载 操 作 的 延迟 ， 我 们 可 
以 建立 由 一 系列 加 载 操 作 组 成 的 一 个 计算 ， 一 条 
加 载 操 作 的 结果 决定 下 一 条 操作 的 地 址 。 作 为 一 
个 例子 ， 考 虑 函数 图 5-31 中 的 隐 数 1ist_len， 
它 计 算 一 个 链表 的 长 度 。 在 这 个 函数 的 循环 中 ， 
变量 1s 的 每 个 后 续 值 依赖 于 指针 引用 1s->next 
读 出 的 值 。 测 试 表明 函数 list ien 的 CPE 为 
4. 00， 我 们 认为 这 直接 表明 了 加 载 操作 的 延迟 。 
要 和 弄 懂 这 一 点 ， 考 虑 循环 的 汇编 代码 : 


Inner loop of list_len 


typedef struct ELE { 
struct ELE *next,; 
long data; 

} list_ele, *]list_ptr; 


long list_len(list_ptr 1s) { 
long len = 0; 
While (ls) + 
lent++; 
ls = 1s->next; 


return len; 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 


mi i 
hNJ 一 





一 2 
| 


ls in %rdi, len iD hrax 
1 .L3; loop: 
2 addq $1, %rax Increment len 图 5-31 链表 也 数 。 其 性 能 受 限 于 
3 movg (Xrdi), %rdi 1s = 1s->next 加 载 操 作 的 延迟 
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4 testq ‘%rdi, %rdi Test 1s 
5 jne .1L3 If nonnuli, goto loop 


第 3 行 上 的 mova 指令 是 这 个 循环 中 关键 的 瓶颈 。 后面 寄存 器 %$rdi 的 每 个 值 都 依赖 于 
加 载 操 作 的 结果 ， 而 加 载 操作 又 以 srdi 中 的 值 作为 它 的 地 址 。 因 此 ， 直 到 前 一 次 迭代 的 
加 载 操作 完成 ， 下 一 次 迭代 的 加 载 操 作 才 能 开始 。 这 个 函数 的 CPE 等 于 4.00， 是 由 加 载 
操作 的 延迟 决定 的 。 事 实 上 ， 这 个 测试 结果 与 文档 中 参考 机 的 Ll 级 cache 的 4 周期 访问 
时 间 是 一 致 的 ， 相 关内 容 将 在 6. 4 节 中 讨论 。 


5. 12.2 存储 的 性 能 


在 迄今 为 止 所 有 的 示例 中 ， 我 们 只 分 析 了 大 部 分 内 存 引 用 都 是 加 载 操 作 的 盟 数 ， 也 就 
是 从 内 存 位 置 读 到 寄存 器 中 。 与 之 对 应 的 是 存储 (store) 操 作 ， 它 将 一 个 寄存 器 值 写 到 内 
存 。 这 个 操作 的 性 能 ， 尤 其 是 与 加 载 操作 的 相互 关系 ， 包 括 一 些 很 细微 的 问题 。 

与 加 载 操作 一 样 ， 在 大 多 数 情况 中 ， 存 储 操 作 能 够 在 完全 流水 线 化 的 模式 中 工作 ， 每 
个 周期 开始 一 条 新 的 存储 。 例 如 ， 考 虑 图 5-32 中 所 示 的 函数 ,它们 将 一 个 长 度 为 n 的 数 
组 dest 的 元 素 设 置 为 0。 我 们 测试 结果 为 CPE 等 于 1. 00。 对 于 只 具有 单个 存储 功能 单元 
的 机 需 ， 这 已 经 达到 了 最 佳 情 况 。 


/* Set elements of array to 0 */ 
void clear_array(long *dest, long n) { 
long 工 ; 


for (i = 0; i < n; i++) 
dest[i] = 0， 





图 5-32 将 数组 元 素 设置 为 0 的 函数 。 该 代码 CPE 达到 1.0 


与 到 目前 为 止 我 们 已 经 考虑 过 的 其 他 操作 不 同 ， 存 储 操作 并 不 影响 任何 寄存 器 值 。 因 
此 ， 就 其 本 性 来 说 ， 一 系列 存储 操作 不 会 产生 数据 相关 。 只 有 加 载 操作 会 受 存 储 操作 结果 
的 影响 ， 因 为 只 有 加 载 操作 能 从 由 存储 操作 写 的 那个 位 置 读 回 值 。 图 5-33 所 示 的 涌 数 
write read 说 明了 加 载 和 存储 操作 之 间 可 能 的 相互 影响 。 这 幅 图 也 展示 了 该 图 数 的 两 个 
示例 执行 ， 是 对 两 元 素数 组 a 调用 的 ， 该 数组 的 初始 内 容 为 一 10 和 17， 参 数 cnt 等 于 3。 
这 些 执行 说 明了 加 载 和 存储 操作 的 一 些 细 微 之 处 。 

在 图 5-33 的 示例 A 中 ， 参 数 src 是 一 个 指 向 数组 元 素 a[0] 的 指针 ， 而 aest 是 一 个 
指向 数组 元 素 a[1] 的 指针 。 在 此 种 情况 中 ， 指 针 引 用 *src 的 每 次 加 载 都 会 得 到 值 一 10。 
因此 ， 在 两 次 迭代 之 后 ， 数 组 元 素 就 会 分 别 保持 固定 为 一 10 和 一 9。 从 src 读 出 的 结果 不 
受 对 dest 的 写 的 影响 。 在 较 大 次 数 的 迭代 上 测试 这 个 示例 得 到 CPE 等 于 1. 3。 

在 图 5-33 的 示例 B 中 ， 参 数 src 和 dest 都 是 指向 数组 元 兹 a[0] 的 指针 。 在 这 种 情 
况 中 ， 指 针 引 用 *src 的 每 次 加 载 都 会 得 到 指针 引用 *dest 的 前 次 执行 存储 的 值 。 因 而 ， 
一 系列 不 断 增加 的 值 会 被 存储 在 这 个 位 置 。 通 种， 如 果 调 用 图 数 write read 时 参数 src 
和 dest 指向 同一 个 内 存 位 置 ， 而 参数 cnt 的 值 为 2 之 0， 那 么 兆 效 果 是 将 这 个 位 置 设 置 为 
?一 1。 这 个 示例 说 明了 一 个 现象 ， 我 们 称 之 为 写 / 读 相关 (write/read dependency) 一 一 一 
个 内 存 读 的 结果 依赖 于 一 个 最 近 的 内 存 写 。 我 们 的 性 能 测试 表明 示例 B 的 CPE 为 7.3。 
写 / 读 相关 导致 处 理 速度 下 降 约 6 个 时 钟 周期 。 


/* Write to dest, read from src */ 
void write_read(long *src, long *dst, long n) 


{ 
long cnt = 
long val = 


While (cnt) { 
*dst = val; 
val = (*src)+1; 
SMD== 


D OO NO hm WW RH 一 


mm 
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下 


一 
NN 


示例 A: write read(&a[0],&a[l1],3) 





图 5-33” 写 和 读 内 存 位 置 的 代码 ， 以 及 示例 执行 。 这 个 函数 突出 的 是 当 参 数 
src 和 dest 相等 时 ， 存 储 和 加 载 之 间 的 相互 影响 
为 了 了 解 处 理 器 如 何 区 别 这 两 种 情况 ， 以 及 为 什么 一 种 情况 比 另 一 种 运行 得 慢 ， 我们 必 
须 更 加 仔细 地 看 看 加 载 和 存储 执行 单元 ， 如 图 5-34 所 示 。 人 存储 单元 包含 一 个 存储 缓冲 区 ， 
它 包含 已 经 被 发 射 到 存储 单元 而 又 还 没有 完成 的 存储 操作 的 地 址 和 数据 ， 这 里 的 完成 包括 
更 新 数据 高 速 缓存 。 提 供 这 样 一 个 缓冲 区 ， 使 得 一 系列 存储 操作 不 必 等 待 每 个 操作 都 更 新 
高 速 缓存 就 能 够 执行 。 当 一 个 加 载 操作 发 生 时 ， 它 必须 检查 存储 缓冲 区 中 的 条 目 ， 看 有 没 


有 地 址 相 匹配 。 如 果 有 地 址 相 匹配 (意味 看 在 写 的 
字 节 与 在 读 的 字 节 有 相同 的 地 址 )， 它 就 取出 相应 
的 数据 条 目 作 为 加 载 操作 的 绪 末 。 
GCC 生成 的 write read 内 循环 代码 如 下 : 
Inner loop of write_read 


src in Yrdi, dst in Wrsi, val in /rax 


.3: loop: 
movVq HEaX, . (WISi.) Write val to dst 
movg (wrdi), prax t = *src 
addq $1, hrax val = t+1 
subq $1, %rdx cnt—— 图 5-34 
jne ‘L3 IF != 0, goto loop 


图 5-35 给 出 了 这 个 循环 代码 的 数据 流 表示 。 
指令 movq $srax, (srsi) 被 翻译 成 两 个 操作 : s_ 


IC 
六 





加 载 和 存储 单元 的 细节 。 存 储 单 元 
包含 一 个 未 执行 的 写 的 缓冲 区 。 加 
载 单 元 必须 检查 它 的 地 址 是 否 与 
存储 单元 中 的 地 址 相符 ， 以 发 现 
写 / 读 相关 


种 5 章 优化 程序 性 能 385 


addr 指令 计算 存储 操作 的 地 址 ， 在 存储 缓冲 区 创建 一 个 条 目 ， 并 且 设 置 该 条 目的 地 址 字 
段 。s_data 操作 设置 该 条 目的 数据 字段 。 正 如 我 们 会 看 到 的 ， 两 个 计算 是 独立 执行 的 ， 
这 对 程序 的 性 能 来 说 很 重要 。 这 使 得 参考 机 中 不 同 的 功能 单元 来 执行 这 些 操作 。 


| mMOVG Trax, (SrS1) 


movg (%Srdi),%rax 






addq $1,%rax 
subqgq $1,%rdx 


jne loop 


图 5-35 write read 内 循环 代码 的 图 形 化 表示 。 第 一 个 movl 指令 被 译 码 两 个 
独立 的 操作 ， 计 算 存 储 地 址 和 将 数据 存储 到 内 存 

除了 由 于 写 和 读 寄 存 占 造成 的 操作 之 间 的 数据 相关 ， 操 作 符 右边 的 弧 线 表示 这 些 操作 
隐 含 的 相关 。 特 别 地 ，s_aqdqdr 操作 的 地 址 计算 必须 在 s_aqaata 操作 之 前 。 此 外 ， 对 指令 
movgq (S$rdi),%rax 译 公 得 到 的 Load 操作 必须 检查 所 有 未 完成 的 存储 操作 的 地 址 ， 在 这 个 
操作 和 s_addr 操作 之 间 创 建 一 个 数据 相关 。 这 张 图 中 s_data 和 Load 操作 之 间 有 虚 弧 
线 。 这 个 数据 相关 是 有 条 件 的 : 如 果 两 个 地 址 相同 ，load 操作 必须 等 待 直到 s data 将 它 
的 结果 存放 到 存储 缓冲 区 中 ,但 是 如 果 两 个 地 址 不 同 ， 两 个 操作 就 可 以 独立 地 进行 。 

图 5-36 说 明了 write read 内 循环 操作 之 间 的 数据 相关 。 在 图 5-36a 中 ， 重 新 排列 了 
操作 ， 让 相关 显得 更 清楚 。 我 们 标 出 了 三 个 涉及 加 载 和 存储 操作 的 相关 ， 升 望 引起 大 家 特 
别 的 注意 。 标 号 为 (1) 的 弧 线 表示 存储 地 址 必须 在 数据 被 存储 之 前 计算 出 来 。 标 号 为 (2) 的 
弧 线 表示 需要 load 操作 将 它 的 地 址 与 所 有 未 完成 的 存储 操作 的 地 址 进行 比较 。 最 后 ， 标 
同时 会 出 现 。 





图 5-36 抽象 write read 的 操作 。 我 们 首先 重新 排列 图 5-35 的 操作 (a)， 然 后 只 显示 
那些 使 用 一 次 迭代 中 的 值 为 下 一 次 迭代 产生 新 值 的 操作 (b) 


图 5-36b 说 明了 当 移 走 那些 不 直接 影响 迭代 与 迭代 之 间 数 据 流 的 操作 之 后 ， 会 发 生 什 
么 。 这 个 数据 流 图 给 出 两 个 相关 链 : 左边 的 一 条 ， 存 储 、 加 载 和 增加 数据 值 (只 对 地 址 相 
同 的 情况 有 效 )， 右 边 的 一 条 ， 减 小 变量 cnt。 

现在 我 们 可 以 理解 函数 write read 的 性 能 特征 了 。 图 5-37 说 明 的 是 内 循环 的 多 次 和 迭 
代 形 成 的 数据 相关 。 对 于 图 5-33 示例 A 的 情况 ， 有 不 同 的 源 和 目的 地 址 ， 加 载 和 存储 操 
作 可 以 独立 进行 ， 因 此 唯一 的 关键 路 径 是 由 减少 变量 cnt 形成 的 ， 这 使 得 CPE 等 于 1. 0。 
对 于 图 5-33 示例 B 的 情况 ， 源 地 址 和 目的 地 址 相同 ，s gdata 和 load 指令 之 间 的 数据 相 
关 使 得 关键 路 径 的 形成 包括 了 存储 、 加 载 和 增加 数据 。 我 们 发 现 顺序 执行 这 三 个 操作 一 共 
需要 7 个 时 钟 周期 。 


示例 A 示例 B 
关键 路 径 关键 路 径 





图 5-37 ”图 数 write_read 的 数据 流 表 示 。 当 两 个 地 址 不 同时 ， 唯 一 的 关键 路 径 是 减少 cnt( 示 例 
A)。 当 两 个 地 址 相同 时 ， 存储、 加 载 和 增加 数据 的 链 形成 了 关键 路 径 ( 示 例 B) 


这 两 个 例子 说 明 ， 内 存 操作 的 实现 包括 许多 细微 之 处 。 对 于 寄存 器 操作 ， 在 指令 被 译 
码 成 操作 的 时 候 ， 处 理 融 就 可 以 确定 哪些 指令 会 影响 其 他 哪些 指令 。 另 一 方面 ， 对 于 内 存 
操作 ， 只 有 到 计算 出 加 载 和 存储 的 地 址 被 计算 出 来 以 后 ， 处 理 需 才能 确定 哪些 指令 会 影响 
其 他 的 哪些 。 高 效 地 处 理 内 存 操作 对 许多 程序 的 性 能 来 说 至 关 重 要 。 内 存 子 系统 使 用 了 很 
多 优化 ， 例 如 当 操 作 可 以 独立 地 进行 时 ， 就 利用 这 种 潜在 的 并 行 性 。 
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Ba 练习 题 5. 10 作为 另 一 个 具有 潜在 的 加 载 -存储 相互 影响 的 代码 ， 考虑 下 面 的 函数 ， 
它 将 一 个 数组 的 内 容 复 制 到 另 一 个 数组 : 


Void copy_array(long *src, long *dest, long n) 


1 

2 长 

3 long i; 

4 for (i = 0; i < n; i++) 
5 dest[i] = src[i] ; 

6 } 


假设 a 是 一 个 长 度 为 1000 的 数组 ， 被 初始 化 为 每 个 元 素 alij] 等 于 i。 
A. 调用 copy array (a+1,a,999) 的 效果 是 什么 ? 
调用 copy array (a,a+1,999) 的 效果 是 什么 ? 
C. 我 们 的 性 能 测试 表明 问题 A 调用 的 CPE 为 1.2( 循 环 展开 因子 为 4 时， 该 值 下 降 到 
1.0)， 而 问题 B 调 用 的 CPE 为 5.0。 你 认为 是 什么 因素 造成 了 这 样 的 性 能 差异 ? 
D. 你 预计 调用 copy array (a,a,999) 的 性 能 会 是 怎样 的 ? 
六 到 练习 题 5. 11 我 们 测量 出 前 置 和 函数 psuml( 图 5-1) 的 CPE 为 9.00， 在 测试 机 器 上 ， 
要 执行 的 基本 操作 浮 点 加 法 的 延迟 只 是 3 个 时 钟 周 期 。 试 着 理解 为 什么 我 们 的 阴 
数 执行 效果 这 么 差 。 . 
下 面 是 这 个 函数 内 循环 的 汇编 代码 : 


Inner loop of psumil 


区 





a in MPGI， 工 in Xrax, cnt in Yrdx 


1 LB loop: 

2 vmovss -4(%rsi,%rax,4), %xmmO Get p[i-1] 

3 vaddss (%rdi,%rax,4), %xmm0, %xmmO Add a[i] 

4 vmovss “xmm0, (%rsi,%rax,4) Store at Di 

5 addq $1 ， hrax Increment i 

6 cmpq hrdx, hrax Compare i:cnt 

7 jne .L5 If !=, goto loop 


参考 对 combine3( 图 5-14) 和 write read( 图 5-36) 的 分 析 ， 画 出 这 个 循环 生成 的 数 
据 相 关 图 ， 再 画 出 计算 进行 时 由 此 形成 的 关键 路 径 。 解 释 为 什么 CPE 如 此 之 高 。 
RS 练习 题 5. 12 重 写 psum1( 图 5-1) 的 代码 ， 使 之 不 需要 反复 地 从 内 存 中 读 取 p[i] 的 
值 。 不 需要 使 用 循环 展开 。 得 到 的 代码 测试 出 的 CPE 等 于 3.00， 受 浮 点 加 法 延迟 的 
限制 。 


5. 13 应 用 : 性 能 提高 技术 


虽然 只 考虑 了 有 限 的 一 组 应 用 程序 ， 但 是 我 们 能 得 出 关于 如 何 编写 高 效 代 码 的 很 重要 
的 经 验 教 训 。 我 们 已 经 描述 了 许多 优化 程序 性 能 的 基本 策略 : 

1) 高 级 设计 。 为 遇 到 的 问题 选择 适当 的 算法 和 数据 结构 。 要 特别 和 警觉， 避免 使 用 那 
些 会 渐进 地 产生 糟糕 性 能 的 算法 或 编码 技术 。 

2) 基本 编码 原则 。 避 免 限 制 优化 的 因素 ， 这 样 编译 器 就 能 产生 高 效 的 代码 。 

e 消除 连续 的 函数 调用 。 在 可 能 时 ， 将 计算 移 到 循环 外 。 考 虑 有 选择 地 妥协 程序 的 模 

块 性 以 获得 更 大 的 效率 。 

e 消除 不 必要 的 内 存 引用 。 引 入 临时 变量 来 保存 中 间 结 果 。 只 有 在 最 后 的 值 计 算出 来 

时 ， 才 将 结果 存放 到 数组 或 全 局 变量 中 。 
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3) 低级 优化 。 结 构 化 代码 以 利用 硬件 功能 。 

e 展开 循环 ， 降 低 开 销 ， 并 且 使 得 进一步 的 优化 成 为 可 能 。 

e 通过 使 用 例如 多 个 累积 变量 和 重新 结合 等 技术 ， 找 到 方法 提高 指令 级 并 行 。 

e 用 功能 性 的 风格 重 写 条 件 操作 ， 使 得 编译 采用 条 件数 据 传送 。 

最 后 要 给 读者 一 个 忠告 ,要 罗 惕 ， 在 为 了 提高 效率 重 写 程序 时 避免 引入 错误 。 在 引入 
新 变量 、 改 变 循环 边界 和 使 得 代码 整体 上 更 复杂 时 ， 很 容易 犯错 误 。 一 项 有 用 的 技术 是 在 
优化 函数 时 ， 用 检查 代码 来 测试 函数 的 每 个 版 本 ， 以 确保 在 这 个 过 程 没有 引入 错误 。 检 查 
代码 对 函数 的 新 版 本 实施 一 系列 的 测试 ， 确 保 它 们 产生 与 原来 一 样 的 结果 。 对 于 高 度 优化 
的 代码 ， 这 组 测试 情况 必须 变 得 更 加 广泛 ， 因 为 要 考虑 的 情况 也 更 多 。 例 如 ， 使 用 循环 展 
开 的 检查 代码 需要 测试 许多 不 同 的 循环 界限 ， 保 证 它 能 够 处 理 最 终 单 步 迭 代 所 需要 的 所 有 
不 同 的 可 能 的 数字 。 


5. 14 确认 和 消除 性 能 瓶颈 


至 此 ， 我 们 只 考虑 了 优化 小 的 程序 ， 在 这 样 的 小 程序 中 有 一 些 很 明显 限制 性 能 的 地 
方 ， 因 此 应 该 是 集中 注意 力 对 它们 进行 优化 。 在 处 理 大 程序 时 ， 连 知道 应 该 优化 什么 地 方 
都 是 很 难 的 。 本 节 会 描述 如 何 使 用 代码 训 析 程序 (code profiler)， 这 是 在 程序 执行 时 收集 
性 能 数据 的 分 析 工 具 。 我 们 还 展示 了 一 个 系统 优化 的 通用 原则 ， 称 为 Amdahl 定律 (Am- 
dahl”s law)， 参 见 1.9.1 节 。 


5. 14. 1 程序 齐 析 


程序 剖析 (profiling) 运 行程 序 的 一 个 版 本 ， 其 中 插入 了 工具 代码 ， 以 确定 程序 的 各 个 
部 分 需要 多 少时 间 。 这 对 于 确认 程序 中 我 们 需要 集中 注意 力 优化 的 部 分 是 很 有 用 的 。 剂 析 
的 一 个 有 力 之 处 在 于 可 以 在 现实 的 基准 数据 (benchmark data) 上 运行 实际 程序 的 同时 ， 进 
行 剖 析 。 

Unix 系统 提供 了 一 个 剂 析 程 序 GPROF。 这 个 程序 产生 两 种 形式 的 信息 。 首 先 ， 化 确 
定 程 序 中 每 个 函数 花费 了 多 少 CPU 时 间 。 其 次 ， 它 计算 每 个 函数 被 调用 的 次 数 ， 以 执行 
调用 的 函数 来 分 类 。 这 两 种 形式 的 信息 都 非常 有 用 。 这 些 计时 给 出 了 不 同 函 数 在 确定 整体 
运行 时 间 中 的 相对 重要 性 。 调 用 信息 使 得 我 们 能 理解 程序 的 动态 行为 。 

用 GPROF 进行 剖析 需要 3 个 步 又， 就 像 C 程序 prog.c 所 示 ， 它 运行 时 命令 行 参 数 
为 file .txt: 

1) 程序 必须 为 剖析 而 编译 和 链接 。 使 用 GCC( 以 及 其 他 C 编译 器 )， 就 是 在 命令 行 上 简 
单 地 包括 运行 时 标志 “-pg”"。 确 保 编译 融 不 通过 内 联 蔡 换 来 答 试 执行 任何 优化 是 很 重要 的 ， 
否则 就 可 能 无 法 正确 刻画 涌 数 调用 。 我 们 使 用 优化 标志 -0g， 以 保证 能 正确 跟 踩 函 数 调 用 ， 

linux> gcc -Ug -pg Prog:C -0 prog 


2) 然后 程序 像 往常 一 样 执 行 : 

linux> ,/prog file.txt 

它 运 行 得 会 比 正常 时 稍微 慢 一 点 (大 约 慢 2 倍 ) ， 不 过 除 此 之 外 唯一 的 区 别 就 是 它 产 生 
了 一 个 文件 gmon .out。 


3) 调用 GPROF 来 分 析 gmon .out 中 的 数据 。 
linux> gprof prog 
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剖析 报告 的 第 一 部 分 列 出 了 执行 各 个 函数 花费 的 时 间 ， 按 照 降序 排列 。 作 为 一 个 示 


例 ， 下 面 列 出 了 报告 的 一 部 分 ， 是 关于 程序 中 最 耗费 时 间 的 三 个 函数 的 : 
%» cumulative self self total 
time seconds seconds calls s/call s/call name 
97 .58 203 .66 203 .66 1 203.66 203.66 sort_words 
2..32 208.50 4.85 965027 0.00 0.00 find_ele_rec 
0.14 208 .81 日 .SO 128511031 0.00 0.00 strlen 


每 一 行 代 表 对 基 个 图 数 的 所 有 调用 所 花费 的 时 间 。 第 一 列表 明 花 费 在 这 个 函数 上 的 时 
间 占 整个 时 间 的 百分比 。 第 二 列 显 示 的 是 直到 这 一 行 并 包括 这 一 行 的 函数 所 花费 的 累计 时 
间 。 第 三 列 显示 的 是 花费 在 这 个 也 数 上 的 时 间 ， 而 第 四 列 显 示 的 是 它 被 调用 的 次 数 ( 北 归 
调用 不 计算 在 内 )。 在 例子 中 ， 勾 数 sort words 只 被 调用 了 一 次 ， 但 就 是 这 一 次 调用 需 
要 203. 66 秒 ， 而 函数 find ele rec 被 调用 了 965 027 次 (递归 调用 不 计算 在 内 )， 总 共和 需 
要 4. 85 秒 。 函 数 Strlen 通过 调用 库 函 数 strlen 来 计算 字符 串 的 长 度 。GPROF 的 结果 
中 通常 不 显示 库 防 数 调 用 。 库 函数 耗费 的 时 间 通 常 计 算 在 调用 它们 的 函数 内 。 通 过 创建 这 
个 “包装 一 数 (wrapper function)”Strlen， 我 们 可 以 可 靠 地 跟踪 对 strlen 的 调用 ， 表 
明 它 被 调用 了 12 511 031 次 ， 但 是 一 共 只 需要 0. 30 秒 。 

剖析 报告 的 第 二 部 分 是 函数 的 调用 历史 。 下 面 是 一 个 递归 函数 find ele Eee 的 历史 : 


158655725 find_ele_rec [5] 
4.85 0.10 965027/965027 insert_string [4] 
[5] 2.4 4.85 0.10 965027+158655725 find_ele_rec [5] 
0.08 0.01 363039/363039 save_string [8] 
0.00 0.01 363039/363039 new_ele [12] 
158655725 find_ele_rec [5S] 


这 个 历史 既 显 示 了 调用 find ele rec 的 图 数 ， 也 显示 了 它 调 用 的 函数 。 头 两 行 显示 的 是 
对 这 个 函数 的 调用 : 被 它 目 身 递 归 地 调用 了 158 655 725 次 ， 被 函数 insert_string 调用 
了 965 027 次 ( 它 本 身 被 调用 了 965 027 次 ) 。 函 数 find ele rec 也 调用 了 另外 两 个 函数 
save _ string 和 new ele， 每 个 图 数 总 共 被 调用 了 363 039 次 。 
根据 这 个 调用 信息 ， 我 们 通 稼 可 以 推断 出 关于 程序 行为 的 有 用 信息 。 人 例如， 函数 
find ele_ rec 是 一 个 递归 过 程 ， 它 扫描 一 个 哈 希 桶 (hash bucket) 的 链表 ， 查 找 一 个 特殊 
的 字符 串 。 对 于 这 个 函数 ,比较 递 归 调 用 的 数量 和 顶层 调用 的 数量 ,提供 了 关于 裔 历 这 些 
链表 的 长 度 的 统计 信息 。 这 里 递归 与 项 层 调用 的 比率 是 164. 4， 我 们 可 以 推断 出 程序 每 次 
平均 大 约 扫描 164 个 元 素 。 
GPROF 有 些 属性 值得 注意 : 
@ 计时 不 是 很 准确 。 它 的 计时 基于 一 个 简单 的 间隔 计数 (interval counting) 机 制 ， 编 译 过 
的 程序 为 每 个 图 数 维护 一 个 计数 大 ， 记 录 花 费 在 执行 该 函数 上 的 时 间 。 操 作 系 统 使 得 
每 隔 某 个 规则 的 时 间 间 隅 8， 程序 被 中 断 一 次 。6 的 典型 值 的 范围 为 1.0 一 10.0 上 毫秒。 
当中 断 发 生 时 ， 它 会 确定 程序 正在 执行 什么 孔 数 ， 并 将 该 函数 的 计数 器 值 增加 6。 当 
然 ， 也 可 能 这 个 晒 数 只 是 刚 开始 执 行 ， 而 很 快 就 会 完成 ， 却 赋 给 它 从 上 次 中 断 以 来 整个 
的 执行 花费 。 在 两 次 中 断 之 间 也 可 能 运行 其 他 某 个 程序 ， 却 因此 根本 没有 计算 花费 。 
对 于 运行 时 间 较 长 的 程序 ， 这 种 机 制 工作 得 相当 好 。 从 统计 上 来 说 ， 应 该 根据 
花费 在 执行 隐 数 上 的 相对 时 间 来 计算 每 个 函数 的 花费 。 不 过 ， 对 于 那些 运行 时 间 少 
于 1 秒 的 程序 来 说 ， 得 到 的 统计 数字 只 能 看 成 是 粗略 的 估计 值 。 
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e 假设 没有 执行 内 联 蔡 换 ， 则 调用 信息 相当 可 靠 。 编 译 过 的 程序 为 每 对 调用 者 和 被 调 
用 者 维护 一 个 计数 器 。 每 次 调用 一 个 过 程 时 ， 就 会 对 适当 的 计数 器 加 1。 

e 玲 认 情况 下 ， 不 会 显示 对 库 函 数 的 计时 。 相 反 ， 库 函数 的 时 间 都 被 计算 到 调用 它们 
的 函数 的 时 间 中 。 


5. 14.2 使 用 剖析 程序 来 指导 优化 


作为 一 个 用 放 析 程序 来 指导 程序 优化 的 示例 ， 我 们 创建 了 一 个 包括 几 个 不 同 任务 和 数 
据 结构 的 应 用 。 这 个 应 用 分 析 一 个 文本 文档 的 n-gram 统计 信息 ， 这 里 n-gram 是 一 个 出 现 
在 文档 中 个 单词 的 序列 。 对 于 2z 王 1， 我 们 收集 每 个 单词 的 统计 信息 ， 对 于 ”一 2， 收 集 
每 对 单词 的 统计 信息 ， 以 此 类 推 。 对 于 一 个 给 定 的 nn 值 ， 程 序 读 一 个 文本 文件 ， 创 建 一 张 
互 不 相同 的 n-gram 的 表 ， 指 出 每 个 n-gram 出 现 了 多 少 次 ， 然 后 按照 出 现 次 数 的 降序 对 单 
词 排序 。 

作为 基准 程序 ， 我们 在 一 个 由 《莎士比亚 全 集 》 组 成 的 文件 上 运行 这 个 程序 ， 一 共有 
965 028 个 单词 ， 其 中 23 706 个 是 互 不 相同 的 。 我 们 发 现 ， 对 于 n= 二 1， 即 使 是 一 个 写 得 很 
烂 的 分 析 程 序 也 能 在 1 秒 以 内 处 理 完 整个 文件 ， 所 以 我 们 设置 n= 二 2， 使 得 事情 更 加 有 挑 
战 。 对 于 ”一 2 的 情况 ，n-gram 被 称 为 bigram( 读 作 “bye-gram”) 。 我 们 确定 《莎士比亚 全 
集 ) 包 含 363 039 个 互 不 相同 的 bigram。 最 和 常见 的 是 “I am”， 出 现 了 1892 次 。 词 组 “to 
be” 出 现 了 1020 次 。bigram 中 有 266 018 个 只 出 现 了 一 次 。 

程序 是 由 下 列 部 分 组 成 的 。 我 们 创建 了 多 个 版 本 ， 从 各 部 分 简单 的 算法 开始 ， 然 后 再 
换 成 更 成 熟 完 善 的 算法 : 

1) 从 文件 中 读 出 每 个 单词 ， 并 转换 成 小 写字 母 。 我 们 最 初 的 版 本 使 用 的 是 函数 lowerl 
(图 5-7)， 我 们 知道 由 于 反复 地 调用 strlen， 它 的 时 间 复 杂 度 是 二 次 的 。 

2) 对 字符 串 应 用 一 个 哈 希 函数 ， 为 一 个 有 ;个 桶 (bucket) 的 哈 希 表 产 生 一 个 0~~s 一 1 
之 间 的 数 。 最 初 的 函数 只 是 简单 地 对 字符 的 ASCII 代码 求 和 ， 再 对 s 求 模 。 

3) 每 个 哈 希 桶 都 组 织 成 一 个 链表 。 程 序 沿 着 这 个 链表 扫描 ， 寻 找 一 个 匹配 的 条 目 。 
如 果 找 到 了 ， 这 个 n-gram 的 频 度 就 加 1。 否 则 ， 就 创建 一 个 新 的 链表 元 素 。 最 初 的 版 本 递 
归 地 完成 这 个 操作 ， 将 新 元 素 插 在 链表 尾部 。 

4) 一 旦 已 经 生成 了 这 张 表 ， 我 们 就 根据 频 度 对 所 有 的 元 素 排 序 。 最 初 的 版 本 使 用 插入 
排序 。 

图 5-38 是 n-gram 频 度 分 析 程 序 6 个 不 同 版 本 的 剖析 结果 。 对 于 每 个 版 本 ， 我 们 将 时 
间 分 为 下 面 的 5 类 。 

Sort: 按照 频 度 对 n-gram 进行 排序 

List: 为 匹配 n-gram 扫描 链表 ， 如 果 和 需要 ， 插入 一 个 新 的 元 素 

Lower: 将 字符 串 转换 为 小 写字 母 

Strlen: 计算 字符 串 的 长 度 

Hash: 计算 哈 布 范 数 

Rest: 其 他 所 有 函数 的 和 

如 图 5-38a 所 示 ， 最 初 的 版 本 需要 3, 5 分 钟 ， 大 多 数 时 间 花 在 了 排序 上 。 这 并 不 奇怪 ， 
因为 插入 排序 有 二 次 的 运行 时 间 ， 而 程序 对 363 039 个 值 进行 排序 。 

在 下 一 个 版 本 中 ， 我 们 用 库 函 数 qsort 进行 排序 ， 这 个 函数 是 基于 快速 排序 算法 的 
[98]， 其 预期 运行 时 间 为 O(zlogz) 。 在 图 中 这 个 版 本 称 为 “Quicksort”。 更 有 效 的 排序 算 


第 5 童 优化 程序 性 能 391 


法 使 花 在 排序 上 的 时 间 降 低 到 可 以 忽略 不 计 ， 而 整个 运行 时 间 降 低 到 大 约 5.4 秒 。 图 5-38b 
是 剩 下 各 个 版 本 的 时 间 ， 所 用 的 比例 能 使 我 们 看 得 更 清楚 。 
250 





六 
5 

2 100 

50 

0 

Initial Quicksort Iter first Iter last Big table Better hash Linear lower 
a ) 所 有 的 版 本 

6 

5 

Ne 
了 
ey 
E, 
5 





Quicksort Iter first Iter last Big table Better hash Linear lower 


b ) 除了 最 慢 的 版 本 外 的 所 有 版 本 
图 5-38 ”bigram 频 度 计数 程序 的 各 个 版 本 的 剖析 结果 。 时 间 是 根据 程序 中 不 同 的 主要 操作 划分 的 


改进 了 排序 ， 现 在 发 现 链表 扫描 变 成 了 瓶颈 。 想 想 这 个 低 效 率 是 由 于 函数 的 递归 结构 
引起 的 ， 我 们 用 一 个 迭代 的 结构 替换 它 ， 显 示 为 “Iter first?。 令 人 奇怪 的 是 ， 运 行 时 间 增 
加 到 了 大 约 7.5 秒 。 根 据 更 近 一 步 的 研究 ， 我 们 发 现 两 个 链表 函数 之 间 有 一 个 细微 的 差 
别 。 弟 归 版 本 将 新 元 素 插 入 到 链表 尾部 ， 而 迭代 版 本 把 它们 插 到 链表 头 部 。 为 了 使 性 能 最 
大 化 ， 我 们 希望 频率 最 高 的 n-gram 出 现在 链表 的 开始 处 。 这 样 一 来 ， 困 数 就 能 快速 地 定 
位 常见 的 情况 。 假 设 n-gram 在 文档 中 是 均匀 分 布 的 ， 我 们 期 望 频 度 高 的 单词 的 第 一 次 出 
现在 频 度 低 的 单词 之 前 。 通 过 将 新 的 n-gram 插入 尾部 ， 第 一 个 函数 倾向 于 按照 频 度 的 降 
序 排序 ， 而 第 二 个 函数 则 相反 。 因 此 我 们 创建 第 三 个 链表 扫描 函数 ， 它 使 用 迭代 ， 但 是 将 
新 元 素 插 入 到 链表 的 尾部 。 使 用 这 个 版 本 ， 显 示 为 “Iter last”， 时 间 降 到 了 大 约 5. 3 秒 ， 
比 递归 版 本 稍微 好 一 点 。 这 些 测量 展示 了 对 程序 做 实验 作为 优化 工作 一 部 分 的 重要 性 。 开 
始 时 ， 我 们 假设 将 递归 代码 转换 成 迭代 代码 会 改进 程序 的 性 能 ， 而 没有 考虑 添加 元 素 到 链 
表 未 尾 和 开头 的 差别 。 

接 下 来 ， 我 们 考虑 哈 布 表 的 结构 。 最 初 的 版 本 只 有 1021 个 桶 (通常 会 选择 桶 的 个 数 为 
质数 ， 以 增强 哈 硕 图 数 将 关键 字 均 勺 分 布 在 桶 中 的 能 力 ) 。 对 于 一 个 有 363 039 个 条 目的 表 
来 说 ， 这 就 意味 着 平均 负载 (load) 是 363 039/1021 二 355. 6。 这 就 解释 了 为 什么 有 那么 多 时 
间 花 在 了 执行 链表 操作 上 了 一 一 搜索 包括 测试 大 量 的 候选 n-gram。 它 还 解释 了 为 什么 性 能 
对 链表 的 排序 这 么 敏感 。 然 后 ， 我 们 将 桶 的 数量 增加 到 了 199 999, 平均 负载 降低 到 了 
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1.8。 不 过 ， 很 奇怪 的 是 ， 整 体 运行 时 间 只 下 降 到 5. 1 秒 ， 差 距 只 有 0.2 秒 。 

进一步 观察 ， 我 们 可 以 看 到 ， 表 变 大 了 但 是 性 能 提高 很 小 ， 这 是 由 于 哈 硕 函 数 选 择 的 
不 好 。 简 单 地 对 字符 串 的 字符 编码 求 和 不 能 产生 一 个 大 范围 的 值 。 特 别 是 ， 一 个 字母 最 大 
的 编码 值 是 122， 因 而 个 字符 产生 的 和 最 多 是 122n。 在 文档 中 ， 最 长 的 bigram( “honor- 
ificabilitudinitatibus thou”) 的 和 也 不 过 是 3371， 所 以 ， 我 们 哈 希 表 中 大 多 数 桶 都 是 不 会 被 
使 用 的 。 此 外 ， 可 交换 的 哈 硕 图 数 ， 例 如 加 法 ， 不 能 对 一 个 字符 串 中 不 同 的 可 能 的 字符 顺 
序 做 出 区 分 。 例 如 ， 单 词 “rat” 和 “tar” 会 产生 同样 的 和 。 

我 们 换 成 一 个 使 用 移 位 和 蜡 或 操作 的 哈 硕 图 数 。 使 用 这 个 版 本 ， 显 示 为 “Better 
Hash”， 时 间 下 降 到 了 0. 6 秒 。 一 个 更 加 系统 化 的 方法 是 更 加 仔细 地 研究 关键 字 在 桶 中 的 
分 布 ， 如 果 哈 希 函 数 的 输出 分 布 是 均匀 的 ， 那 么 确保 这 个 分 布 接近 于 人 们 期 望 的 那样 。 

最 后 ， 我 们 把 运行 时 间 降 到 了 大 部 分 时 间 是 花 在 strlen 上 ， 而 大 多 数 对 strlen 的 
调用 是 作为 小 写字 母 转 换 的 一 部 分 。 我 们 已 经 看 到 了 函数 lowerl 有 二 次 的 性 能 ， 特 别 是 
对 长 字符 串 来 说 。 这 篇 文档 中 的 单词 足够 短 ， 能 避免 二 次 性 能 的 灾难 性 的 结果 ; 最 长 的 
bigram 只 有 32 个 字符 。 不 过 换 成 使 用 lower2， 显 示 为 “Linear Lower” 得 到 很 好 的 性 
能 ， 整 个 时 间 降 到 了 0. 2 秒 。 

通过 这 个 练习 ， 我 们 展示 了 代码 剖析 能 够 帮助 将 一 个 简单 应 用 程序 所 需 的 时 间 从 3. 5 
分 钟 降 低 到 0. 2 秒 ， 得 到 的 性 能 提升 约 为 1000 倍 。 齐 析 程 序 帮 助 我 们 把 注意 力 集 中 在 程 
序 最 耗 时 的 部 分 上 上， 同时 还 提供 了 关于 过 程 调 用 结构 的 有 用 信息 。 代 码 中 的 一 些 瓶 颈 ， 例 
如 二 次 的 排序 函数 ， 很 容易 看 出 来 ; 而 其 他 的 ， 例 如 插入 到 链表 的 开始 还 是 结尾 ， 只 有 通 
过 仔细 的 分 析 才 能 看 出 。 

我 们 可 以 看 到 ， 训 析 是 工具 箱 中 一 个 很 有 用 的 工具 ， 但 是 它 不 应 该 是 唯一 一 个 。 计 时 测 
量 不 是 很 准确 ， 特 别 是 对 较 短 的 运行 时 间 ( 小 于 1 秒 ) 来 说 。 更 重要 的 是 ， 结 有 果 只 适用 于 被 测 
试 的 那些 特殊 的 数据 。 例 如 ， 如 果 在 由 较 少 数量 的 较 长 字符 串 组 成 的 数据 上 运行 最 初 的 力 
数 ， 我 们 会 发 现 小 写字 母 转换 函数 才 是 主要 的 性 能 瓶颈 。 更 糟糕 的 是 ， 如 果 它 只 放 析 包含 短 
单词 的 文档 ， 我 们 可 能 永远 不 会 发 现 隐藏 着 的 性 能 瓶颈 ， 例 如 lowerl 的 二 次 性 能 。 通 第， 
假设 在 有 代表 性 的 数据 上 运行 程序 ， 剂 析 能 帮助 我 们 对 典型 的 情况 进行 优化 ， 但 是 我 们 还 应 
该 确保 对 所 有 可 能 的 情况 ， 程序 都 有 相当 的 性 能 。 这 主要 包括 避免 得 到 糟糕 的 渐 近 性 能 (as- 
ymptotic performance) 的 算法 (例如 插入 算法 ) 和 坏 的 编程 实践 (例如 Lower1l) 。 

1. 9. 1 中 讨论 了 Amdahl 定律 ， 它 为 通过 有 针对 性 的 优化 来 获取 性 能 提升 提供 了 一 些 
其 他 的 见解 。 对 于 n-gram 代码 来 说 ， 当 用 quicksort 代替 了 插入 排序 后 ， 我 们 看 到 总 的 执 
行 时 间 从 209.0 秒 下 降 到 5.4 秒 。 初 始 版 本 的 209.0 秒 中 的 203.7 秒 用 于 执行 插入 排序 ， 
得 到 a 二 0. 974， 被 此 次 优化 加 速 的 时 间 比 例 。 使 用 quicksort， 花 在 排序 上 的 时 间 变 得 微 
不 足 道 ， 得 到 预计 的 加 速 比 为 209/a 二 39. 0， 接近 于 测量 加 速 比 38. 5。 我 们 之 所 以 能 获得 
大 的 加 速 比 ， 是 因为 排序 在 整个 执行 时 间 中 占 了 非常 大 的 比例 。 然 而 ， 当 一 个 瓶颈 消除 ， 
而 新 的 瓶颈 出 现时 ， 就 需要 关注 程序 的 其 他 部 分 以 获得 更 多 的 加 速 比 。 


5. 15 小 结 


虽然 关于 代码 优化 的 大 多 数论 述 都 描述 了 编译 器 是 如 何 能 生成 高 效 代码 的 ， 但 是 应 用 程序 员 有 很 多 方 
法 来 协助 编译 器 完成 这 项 任务 。 没 有 任何 编译 器 能 用 一 个 好 的 算法 或 数据 结构 代替 低 效 率 的 算法 或 数据 结 
构 ， 因 此 程序 设计 的 这 些 方面 仍然 应 该 是 程序 员 主 要 关心 的 。 我 们 还 看 到 妨碍 优化 的 因素 ,例如 内 存 别 名 
使 用 和 过 程 调 用 ， 严 重 限制 了 编译 器 执行 大 量 优化 的 能 力 。 同 样 ， 程 序 员 必 须 对 消除 这 些 妨碍 优化 的 因素 
负 主 要 的 责任 。 这 些 应 该 被 看 作 好 的 编程 习惯 的 一 部 分 ， 因 为 它们 可 以 用 来 消除 不 必要 的 工作 ，。 
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基本 级 别 之 外 调整 性 能 需要 一 些 对 处 理 器 微 体 系 结构 的 理解 ， 摘 述 处 理 器 用 来 实现 它 的 指令 集体 系 
结构 的 底层 机 制 。 对 于 乱 序 处 理 器 的 情况 ， 只 需要 知道 一 些 关 于 操作 、 容 量 、 延 迟 和 功能 单元 发 射 时 间 
的 信息 ， 就 能 够 基本 地 预测 程序 的 性 能 了 。 

我 们 研究 了 一 系列 技术 ， 包 括 循环 展开 、 创 建 多 个 累积 变量 和 重新 结合 ， 它 们 可 以 利用 现代 处 理 需 
提供 的 指令 级 并 行 。 随 着 对 优化 的 深入 ， 研 究 产生 的 汇编 代码 以 及 试 着 理解 机 器 如 何 执行 计算 变 得 重要 
起 来 。 确 认 由 程序 中 的 数据 相关 决定 的 关键 路 径 ， 尤 其 是 循环 的 不 同和 迭代 之 间 的 数据 相关 ， 会 收获 良 多 。 
我 们 还 可 以 根据 必须 要 计算 的 操作 数量 以 及 执行 这 些 操作 的 功能 单元 的 数量 和 发 射 时 间 ， 计 算 一 个 计算 
的 吞吐 量 界限 。 

包含 条 件 分 支 或 与 内 存 系 统 复杂 交互 的 程序 ， 比 我 们 最 开始 考虑 的 简单 循环 程序 ， 更 难以 分 析 和 优 
化 。 基 本 策略 是 使 分 支 更 容易 预测 ， 或 者 使 它们 很 容易 用 条 件数 据 传送 来 实现 。 我 们 还 必须 注意 存储 和 
加 载 操 作 。 将 数值 保存 在 局 部 变量 中 ， 使 得 它们 可 以 存放 在 寄存 器 中 ， 这 会 很 有 帮助 。 

当 处 理 大 型 程序 时 ， 将 注意 力 集中 在 最 耗 时 的 部 分 变 得 很 重要 。 代 码 剖 析 程 序 和 相关 的 工具 能 帮助 
我 们 系统 地 评价 和 改进 程序 性 能 。 我 们 描述 了 GPROF， 一 个 标准 的 Unix 剖 析 工 具 。 还 有 更 加 复杂 完善 
的 剖析 程序 可 用 ， 例 如 Intel 的 VTUNE 程序 开发 系统 ， 还 有 Linux 系统 基本 上 都 有 的 VALGRIND。 这 
些 工具 可 以 在 过 程 级 分 解 执行 时 间 ， 估 计 程 序 每 个 基本 块 (basic block) 的 性 能 。( 基 本 块 是 内 部 没有 控制 
转移 的 指令 序列 ， 因 此 基本 块 总 是 整个 被 执行 的 。) 


参考 文献 说 明 


我 们 的 关注 点 是 从 程序 员 的 角度 描述 代码 优化 ， 展 示 如 何 使 书写 的 代码 能 够 使 编译 需 更 容易 地 产生 
高 效 的 代码 。Chellappa、Franchetti 和 Piischel 的 扩展 的 论文 L19] 采 用 了 类 似 的 方法 ， 但 关于 处 理 器 的 特 
性 描述 得 更 详细 。 

有 许多 著作 从 编译 器 的 角度 描述 了 代码 优化 ,形式 化 描述 了 编辑 器 可 以 产生 更 有 效 代 码 的 方法 。 
Muchnick 的 著作 被 认为 是 最 全 面 的 L80]。Wadleigh 和 Crawford 的 关于 软件 优化 的 著作 [L115 覆盖 了 一 些 
我 们 已 经 谈 到 的 内 容 ， 不 过 它 还 描述 了 在 并 行 机 器 上 获得 高 性 能 的 过 程 。Mahlke 等 人 的 一 篇 比较 早期 的 
论文 L75]， 描 述 了 几 种 为 编译 器 开发 的 将 程序 映射 到 并 行 机 器 上 的 技术 ， 它 们 是 如 何 能 够 被 改造 成 利用 
现代 处 理 器 的 指令 级 并 行 的 。 这 篇 论文 覆盖 了 我 们 讲 过 的 代码 变换 ， 包 括 循 环 展 开 、 多 个 累积 变量 (他 们 
称 之 为 累积 变量 扩展 (accumulator variable expansion) ) 和 重新 结合 (他 们 称 之 为 树 高 度 减 少 (tree height 
reduction) ) 。 

我 们 对 乱 序 处 理 器 的 操作 的 描述 相当 简单 和 抽象 。 可 以 在 高 级 计算 机 体系 结构 教科 书 中 找到 对 通用 
原则 更 完整 的 描述 ,例如 Hennessy 和 Patterson 的 著作 [46， 第 2 一 3 章 ]。Shen 和 Lipasti 的 书 L100] 提 供 
了 对 现代 处 理 需 设计 深入 的 论述 。 


家 寿 作 业 


<*5.13 假设 我 们 想 编 写 一 个 计算 两 个 向 量 u 和 vv 内 积 的 过 程 。 这 个 函数 的 一 个 抽象 版 本 对 整数 和 浮 点 数 
类 型 ， 在 x86-64 上 CPE 等 于 14 一 18。 通 过 进行 与 我 们 将 抽象 程序 combinel 变换 为 更 有 效 的 
combine4 相同 类 型 的 变换 ， 我 们 得 到 如 下 代码 : 


/* Inner product. Accumulate in temporary */ 


1 

2 void inner4(vec_ptr u, vec_ptr v, data_t *dest) 
和 捞 

4 long i; 

5 long length = vec_length(u); 

6 data t *udata = get_vec_start (vu); 

7 data_t *vdata = get_vec_start(v); 

8 data t sum = (data_t) 0; 

9 

10 for (i = 0; i < length; i++) { 

11 sum = sum + udata[i] * vdata[i]; 
12 } 

13 *dest = Sum; 

14 + 
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*D. 14 


* DO, 1D 


*5, 16 


** 9, 17 


常 一 部 分 “程序 结构 和 执行 


测试 显示 ， 对 于 整数 这 个 函数 的 CPE 等 于 1. 50， 对 于 浮 点 数据 CPE 等 于 3.00。 对 于 数据 类 
型 double， 内 循环 的 x86-64 汇编 代码 如 下 所 示 : 


Tnner loop of innerd. aatat = double, OP = * 
udata in Wrbp; vdata in Wrax, sum in %xmimO0 


i in Krcex, limit in Xrbx 


1 ep ey loop: 

2 vmovsd 0(%rbp,%rcx,8), %xmml Get udata[i] 

3 vmulsd (%rax,%rcx,8), hxmmi, %xmml Multiply by vdatali] 
4 vaddsd Xxmmlil, %xmmO0, “xmmO Add to sum 

5 addq $1 WE Increment i 

6 cmpq hEbR, EC Compare i:1limit 

7 jne :L1S If /=, goto loop 


假设 功能 单元 的 特性 如 图 5-12 所 示 。 
A. 按照 图 5-13 和 图 5-14 的 风格 ， 画 出 这 个 指令 序列 会 如 何 被 译 码 成 操作 ， 并 给 出 它们 之 间 的 数 
据 相 关 如 何 形成 一 条 操作 的 关键 路 径 。 
B. 对 于 数据 类 型 double， 这 条 关键 路 径 决 定 的 CPE 的 下 界 是 什么 ? 
C. 假设 对 于 整数 代码 也 有 类 似 的 指令 序列 ， 对 于 整数 数据 的 关键 路 径 决 定 的 CPE 的 下 界 是 什么 ? 
D. 请 解释 虽然 乘法 操作 需要 5 个 时 钟 周 期 ， 但 是 为 什么 两 个 浮 点 版 本 的 CPE 都 是 3. 00。 
编写 习题 5. 13 中 描述 的 内 积 过 程 的 一 个 版 本 ， 使 用 6X1 循环 展开 。 对 于 x86-64， 我 们 对 这 个 展 
开 的 版 本 的 测试 得 到 ， 对 整数 数据 CPE 为 1. 07， 而 对 两 种 浮 点 数据 CPE 仍然 为 3. 01。 
A. 解释 为 什么 在 Intel Core i7 Haswell 上 运行 的 任何 (标量 ) 版 本 的 内 积 过 程 都 不 能 达到 比 1. 00 更 
小 的 CPE 了。 
B. 解释 为 什么 对 浮 点 数据 的 性 能 不 会 通过 循环 展开 而 得 到 提高 。 
编写 习题 5. 13 中 描述 的 内 积 过 程 的 一 个 版 本 ， 使 用 6X6 循环 展开 。 对 于 x86-64， 我 们 对 这 个 郴 
数 的 测试 得 到 对 整数 数据 的 CPE 为 1.06， 对 浮 点 数据 的 CPE 为 1.01。 
什么 因素 制约 了 性 能 达到 CPE 等 于 1. 00? 
编写 习题 5. 13 中 描述 的 内 积 过 程 的 一 个 版 本 ， 使 用 6X1la 循环 展开 产生 更 高 的 并 行 性 。 我 们 对 这 
个 函数 的 测试 得 到 对 整数 数据 的 CPE 为 1.10， 对 浮 点 数据 的 CPE 为 1.05。 
库 函 数 memset 的 原型 如 下 : 


void *memset(void *s, int c, size_t n); 


这 个 函数 将 从 s 开始 的 n 个 字 节 的 内 存 区 域 都 填充 为 c 的 低位 字 节 。 例 如 ， 通 过 将 参数 c 设置 为 
0， 可 以 用 这 个 函数 来 对 一 个 内 存 区 域 清 零 ， 不 过 用 其 他 值 也 是 可 以 的 。 
下 面 是 memset 最 直接 的 实现 : 
/* Basic implementation of memset */ 
void *basic_memset(void *s, int c, size_t n) 
{ 
size_t cnt = 0; 
unsigned char *schar = 8; 
while (cnt < n) { 
*schar++ = (unsigned char) c; 
cnt++; 
} 


return s; 


} 
实现 该 孙 数 一 个 更 有 效 的 版 本 ,使 用 数据 类 型 为 unsigned long 的 字 来 装 下 8 个 c， 然后 用 
字 级 的 写 遍 历 目标 内 存 区 域 。 你 可 能 发 现 增 加 额外 的 循环 展开 会 有 所 帮助 。 在 我 们 的 参考 机 上 ， 
能 够 把 CPE 从 直接 实现 的 1. 00 降低 到 0. 127。 即 ， 程 序 每 个 周期 可 以 写 8 个 字 节 。 

这 里 是 一 些 额 外 的 指导 原则 。 在 此 ， 假设 K 表示 你 运行 程序 的 机 器 上 的 sizeof (unsigned 
Long) 的 值 。 


一 
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@ 你 不 可 以 调用 任何 库 隐 数 。 
@ 你 的 代码 应 该 对 任意 n 的 值 都 能 工作 ， 包 括 当 它 不 是 K 的 倍数 的 时 候 。 你 可 以 用 类 似 于 使 用 循 
环 展开 时 完成 最 后 几 次 迭代 的 方法 做 到 这 一 点 。 
@ 你 写 的 代码 应 该 无 论 K 的 值 是 多 少 ， 都 能 够 正确 编译 和 运行 。 使 用 操作 sizeof 来 做 到 这 一 点 。 
@ 在 某 些 机 器 上 ， 未 对 齐 的 写 可 能 比 对 齐 的 写 慢 很 多 。( 在 某 些 非 x86 机 器 上 ， 未 对 齐 的 写 甚 至 可 
能 会 导致 段 错误 ,) 写 出 这 样 的 代码 ， 开 始 时 直到 目的 地 址 是 K 的 倍数 时 ， 使 用 字 节 级 的 写 ， 然 
后 进行 字 级 的 写 ， (如果 需 要 ) 最 后 采用 用 字 节 级 的 写 。 
@ 注意 cnt 足够 小 以 至 于 一 些 循环 上 界 变 成 负数 的 情况 。 对 于 涉及 sizeof 运算 符 的 表达 式 ， 可 以 
用 无 符号 运算 来 执行 测试 。( 参 见 2. 2, 8 节 和 家 庭 作 业 2.72。) 
在 练习 题 5. 5 和 5. 6 中 我 们 考虑 了 多 项 式 求 值 的 任务 ， 既 有 直接 求 值 ， 也 有 用 Horner 方法 求 值 。 
试 着 用 我 们 讲 过 的 优化 技术 写 出 这 个 函数 更 快 的 版 本 ， 这 些 技术 包括 循环 展开 、 并 行 累积 和 重新 
结合 。 你 会 发 现 有 很 多 不 同 的 方法 可 以 将 Horner 方法 和 直接 求 值 与 这 些 优化 技术 混合 起 来 。 
理想 状况 下 ， 你 能 达到 的 CPE 应 该 接近 于 你 的 机 器 的 吞吐 量 界 限 。 我 们 的 最 佳 版 本 在 参考 机 上 能 
使 CPE 达到 1. 07 。 
在 练习 题 5. 12 中 ， 我 们 能 够 把 前 置 和 计算 的 CPE 减少 到 3.00， 这 是 由 该 机 器 上 浮 点 加 法 的 延迟 
决定 的 。 简 单 的 循环 展开 没有 改进 什么 。 
使 用 循环 展开 和 重新 结合 的 组 合 ， 写 出 求 前 置 和 的 代码 ， 能 够 得 到 一 个 小 于 你 机 器 上 浮 点 加 
法 延迟 的 CPE。 要 达到 这 个 目标 ， 实 际 上 需要 增加 执行 的 加 法 次 数 。 例 如 ， 我 们 使 用 2 次 循环 展 
开 的 版 本 每 次 迭代 需要 3 个 加 法 ， 而 使 用 4 次 循环 展开 的 版 本 需要 5 个。 在 参考 机 上 ， 我 们 的 最 
佳 实现 能 达到 CPE 为 1. 67。 
确定 你 的 机 器 的 吞吐 量 和 延迟 界限 是 如 何 限制 前 置 和 操作 所 能 达到 的 最 小 CPE 的 。 


练习 题 告 案 


Gui 


5 2 


S; 3 


5.4 


这 个 问题 说 明了 内 存 别名 使 用 的 某 些 细微 的 影响 。 

正如 下 面 加 了 注释 的 代码 所 示 ， 结 果 会 是 将 xp 处 的 值 设置 为 0: 

*xXp = *Xp + *Xxp; /* 2x */ 

5 本 XP = *Xp 一 *Xxp; /* 2x-2x = 0 */ 
6 *Xp = *Xp 一 *xp; /* 0-0 = 0 */ 

这 个 示例 说 明 我 们 关于 程序 行为 的 直觉 往往 会 是 错误 的 。 我 们 自然 地 会 认为 xp 和 yp 是 不 同 的 
情况 ， 却 忽略 了 它们 相等 的 可 能 性 。 错 误 通 常 源 自 程 序 员 没 想 到 的 情况 。 
这 个 问题 说 明了 CPE 和 绝对 性 能 之 间 的 关系 。 可 以 用 初等 代数 解决 这 个 问题 。 我 们 发 现 对 于 n<<2， 
版 本 1 最 快 。 对 于 3 委 z 和 7， 版 本 2 最 快 ， 而 对 于 nn 宇 8， 版 本 3 最 快 。 
这 是 个 简单 的 练习 ， 但 是 认识 到 一 个 for 循环 的 4 个 语句 (初始 化 、 测 试 、 更 新 和 循环 体 ) 执 行 的 次 
数 是 不 同 的 很 重要 。 





这 段 汇 编 代码 展示 了 GCC 发 现 的 一 个 很 聪明 的 优化 机 会 。 要 更 好 地 理解 代码 优化 的 细微 之 处 ， 仔 

细 研 究 这 段 代 码 是 很 值得 的 。 

A. 在 没 经 过 优化 的 代码 中 ， 寄 存 硕 sxmm0 简单 地 被 用 作 临 时 值 ， 每 次 循环 迭代 中 都 会 设置 和 使 用 。 
在 经 过 更 多 优化 的 代码 中 ， 它 被 使 用 的 方式 更 像 combine4 中 的 变量 x， 累 积 向 量 元 素 的 乘积 。 
不 过 ， 与 combine4 的 区 别 在 于 每 次 迭代 第 二 条 vmovsd 指令 都 会 更 新 位 置 dest。 

我 们 可 以 看 到 ， 这 个 优化 过 的 版 本 运行 起 来 很 像 下 面 的 C 代码 : 
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9.5 


5.6 


= 


/* Make sure dest updated on each iteration */ 


2 void combine3w(vec_ptr v, data_t *dest) 
3 长 

4 long i; 

5 long length = vec_lLength(v) ; 

6 data_t *data = get_vec_start(v); 

7 data_t acc = IDENT; 

8 

9 /* Initialize in event length <= 0 */ 
10 *dest = acc; 

11 

12 for (i = 0; i < length; i++) { 

13 acc = acc OP datal[il]; 

14 *dest = acc; 

15 } 

16 } 


B. combine3 的 两 个 版 本 有 相同 的 功能 ， 其 至 于 相同 的 内 存 别 名 使 用 。 
C. 这 个 变换 可 以 不 改变 程序 的 行为 ， 因 为 ， 除 了 第 一 次 迭代 ， 每 次 迭代 开始 时 从 dest 读 出 的 值 和 
前 一 次 迭代 最 后 写 人 到 这 个 寄存 器 的 值 是 相同 的 。 因 此 ,合并 指令 可 以 简单 地 使 用 在 循环 开始 


时 就 已 经 在 $xmm0 中 的 值 。 
多 项 式 求 值 是 解决 许多 问题 的 核心 技术 。 例 如 ， 和 多项式 阻 数 常 常用 作对 数学 库 中 三 角子 数 求 近 
似 值 。 


A. 这 个 函数 执行 2” 个 乘法 入 个 加 法 。 

B. 我 们 可 以 看 到 ， 这 里 限制 性 能 的 计算 是 反复 地 计算 表达 式 xpwr=x*xpwr。 这 需要 一 个 浮 点 数 乘 
法 (5 个 时 钟 周期 )， 并 且 直 到 前 一 次 迭代 完成 ， 下 一 次 迭代 的 计算 才能 开始 。 两 次 连续 的 迭代 之 
间 ， 对 result 的 更 新 只 需要 一 个 浮 点 加 法 (3 个 时 钟 周期 )。 

这 道 题 说 明了 最 小 化 一 个 计算 中 的 操作 数量 不 一 定 会 提高 它 的 性 能 。 

A. 这 个 函数 执行 n 个 乘法 和 nn 个 加 法 ， 是 原始 函数 poly 中 乘法 数量 的 一 半 。 

B. 我 们 可 以 看 到 ， 这 里 的 性 能 限制 计算 是 反复 地 计算 表达 式 result=a[i]+x*result。 从 来 自 上 一 
次 迭代 的 result 的 值 开 始 ， 我 们 必须 先 把 它 乘 以 x(5 个 时 钟 周期 )， 然 后 把 它 加 上 a[i](3 个 时 
钟 周期 )， 然 后 得 到 本 次 迭代 的 值 。 因 此 ， 每 次 迭代 造成 了 最 小 延迟 时 间 8 个 周期 ， 正 好 等 于 我 
们 测量 到 的 CPE。 

C. 虽然 函数 poly 中 每 次 迭代 需要 两 个 乘法 ， 而 不 是 一 个 ， 但 是 只 有 一 条 乘法 是 在 每 次 迭代 的 关键 
路 径 上 出 现 。 

下 面 的 代码 直接 遵循 了 我 们 对 & 次 展开 一 个 循环 所 阐述 的 规则 ; 


void unroll5(vec_ptr v, data_t *dest) 


] 

2 所 

3 long i; 

4 long length = Vvec_length(v) ; 

5 long limit = length-4; 

6 data_t *data = get_vec_start(v); 

7 data_t acc = IDENT; 

8 

9 /* Combine 5 elements at a time */ 

10 for (i = 0; i < limit; i+=5) { 

11 acc = acc OP datal[il] OP data[i+1]; 
12 acc = acc OP data[i+2] OP data[i+3] ; 
13 acc = acc OP data[i+4] ; 

14 } 

15 

16 /* Finish any remaining elements */ 

17 for (; i < length; i++) { 

18 acc = acc OP datal[il]; 

19 } 

20 *dest = acc; 


21 } 
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这 道 题目 说 明了 程序 中 小 小 的 改动 可 能 会 造成 很 大 的 性 能 不 同 ， 特 别 是 在 乱 序 执行 的 机 器 上 。 图 5-39 
画 出 了 该 函数 一 次 迭代 的 3 个 乘法 操作 。 在 这 张 图 中 ， 关 键 路 径 上 的 操作 用 黑色 方 框 表示 它们 
需要 按照 顺序 计算 ， 计 算出 循环 变量 上 的 新 值 。 浅 色 方 框 表 示 的 操作 可 以 与 关键 路 径 操 作 并 行 地 计 
算 。 对 于 一 个 关键 路 径 上 有 P 个 操作 的 循环 ， 每 次 迭代 需要 最 少 5P 个 时 钟 周 期 ， 会 计算 出 3 个 元 
素 的 乘积 ， 得 到 CPE 的 下 界 5P/3。 也 就 是 说 ，Al 的 下 界 为 5.00，A2 和 A5 的 为 3.33， 而 A3 和 
A4 的 为 1. 67。 我 们 在 Intel Core 17 Haswell 处 理 器 上 运行 这 些 函 数 ， 发 现 得 到 的 CPE 值 与 前 述 
= 
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图 5-39 对 于 练习 题 5. 8 中 各 种 情况 乘法 操作 之 间 的 数据 相关 。 用 黑色 方 框 
表示 的 操作 形成 了 和 迭代 的 关键 路 径 


这 道 题 又 说 明了 编码 风格 上 的 小 变化 能 够 让 编译 右 更 容易 地 察觉 到 使 用 条 件 传送 的 机 会 : 


while (il <n && i2 < n) 1 
long vi = srcilii]; 


long v2 = src2[i2]; 
long takel = vi < v2; 
dest [id++] = takel ?了 vi : v2; 
ili1 += takel; 
i2 += (1-takel); 
于 
对 于 这 个 版 本 的 代码 ,我 们 测量 到 CPE 大 约 为 12.0， 比 原始 的 CPE 15.0 有 了 明显 的 提高 。 
这 道 题 要 求 你 分 析 一 个 程序 中 潜在 的 加 载 - 存 储 相 互 影响 。 
A. 对 于 0 委 适 998， 它 要 将 每 个 元 素 ali 让 设置 为 i 十 1。 
B. 对 于 1 委 i 委 999， 它 要 将 每 个 元 素 aLij] 设 置 为 0。 
C. 在 第 二 种 情况 中 ， 每 次 迭代 的 加 载 都 依赖 于 前 一 次 迭代 的 存储 结果 。 因 此 ， 在 连续 的 迭代 之 间 
有 写 / 读 相关 。 
D. 得 到 的 CPE 等 于 1.2, 与 示例 A 的 相同 ， 这 是 因为 存储 和 后 续 的 加 载 之 间 没 有 相关 。 
我 们 可 以 看 到 ， 这 个 函数 在 连续 的 迭代 之 间 有 写 / 读 相关 一 次 迭代 中 的 目的 值 p[i] 与 下 一 次 
迭代 中 的 源 值 p[i- 1] 相 同 。 因 此 ， 每 次 迭代 形成 的 关键 路 径 就 包括 : 一 次 存储 (来 自前 一 次 迭 
代 )， 一 次 加 载 和 一 次 浮 点 加 。 当 存在 数据 相关 时 ,测量 得 到 的 CPE 值 为 9.0， 与 write_read 的 
CPE 测量 值 7. 3 是 一 致 的 ， 因 为 write read 包括 一 个 整数 加 (1 时 钟 周 期 延迟 ) ， 而 psuml 包括 一 
个 浮 点 加 (3 时 钟 周期 延迟 )。 





下 面 是 对 这 个 消 数 的 一 个 修改 版 本 : 

1 void psumila(float a[], float p[], long n) 
2 

3 long i; 

4 /* last_val holds pli-1]; val holds pl[li] */ 
5 float last_val, val; 

6 last_val = p[0] = a[0]; 

7 for (i = 1; 1 < Ls: 14+) 革 

8 val = last_val + al[lil]; 

9 p[li] = val; 

10 last_val = val; 

11 上 


12 上 


398 


第 一 部 分 程序 结构 和 执行 


我 们 引入 了 局 部 变量 last val。 在 迭代 i 的 开始 ，last val 保存 着 p[i- 1] 的 值 。 然 后 我 们 计算 
val 为 p[i] 的 值 ， 也 是 last val 的 新 值 。 
这 个 版 本 编译 得 到 如 下 汇编 代码 : 


Inner lo0op of psumia 
a in Yrdi, i in %rax, cnt in Xrdx, last_val in %xmmO 


] 下 loop: 

2 vaddss (%rdi,%rax,4), %xmmO0, %xmmO last_val = val = last_ val + at] 
3 vmovss “xmm0, (%rsi,%rax,4) Store val in p[i] 

4 addq $1, %rax Increment i 

5 cmpq MTdX ， hrax Compare i:cnt 

6 jne .L16 If 1=, goto loop 


这 段 代码 将 last val 保存 在 %xmm0 中 ， 避 免 了 需要 从 内 存 中 读 出 P[i-1]， 因 而 消除 了 psuml 中 
看 到 的 写 / 读 相关 。 


第 6 草 


存储 可 层次 结构 


到 目前 为 止 ， 在 对 系统 的 研究 中 ， 我们 依赖 于 一 个 简单 的 计算 机 系统 模型 ，CPU 执 
行 指令 ， 而 存储 器 系统 为 CPU 存放 指令 和 数据 。 在 简单 模型 中 ,存储 器 系统 是 一 个 线性 
的 字 节 数组 ， 而 CPU 能 够 在 一 个 常数 时 间 内 访问 每 个 存储 器 位 置 。 虽 然 迄 今 为 止 这 都 是 
一 个 有 效 的 模型 ， 但 是 它 没有 反映 现代 系统 实际 工作 的 方式 。 

实际 上 上， 存储 器 系统 (memory system) 是 一 个 具有 不 同 容量 、 成 本 和 访问 时 间 的 存储 
设备 的 层次 结构 。CPU 寄存 右 保 存 着 最 常用 的 数据 。 靠 近 CPU 的 小 的 、 快 速 的 高 速 缓存 
存储 器 (cache memory) 作 为 一 部 分 存储 在 相对 慢 速 的 主 存储 需 Cmain memory) 中 数据 和 指 
令 的 缓冲 区 域 。 主 存 缓存 存储 在 容量 较 大 的 、 慢 速 磁盘 上 的 数据 ， 而 这 些 磁盘 常常 又 作为 
存储 在 通过 网 络 连接 的 其 他 机 器 的 磁盘 或 磁带 上 的 数据 的 缓冲 区 域 。 

存储 器 层次 结构 是 可 行 的 ， 这 是 因为 与 下 一 个 更 低层 次 的 存储 设备 相 比 来 说 ， 一 个 编 
写 良 好 的 程序 倾向 于 更 频繁 地 访问 某 一 个 层次 上 的 存储 设备 。 所 以 ， 下 一 层 的 存储 设备 可 
以 更 慢 速 一 点 ， 也 因此 可 以 更 大 ， 每 个 比特 位 更 便宜 。 整 体 效果 是 一 个 大 的 存储 器 池 ， 其 
成 本 与 层次 结构 底层 最 便宜 的 存储 设备 相当 ， 但 是 却 以 接近 于 层次 结构 顶部 存储 设备 的 高 

作为 一 个 程序 员 ， 你 需要 理解 存储 器 层次 结构 ， 因 为 它 对 应 用 程序 的 性 能 有 着 巨大 的 
影响 。 如 果 你 的 程序 需要 的 数据 是 存储 在 CPU 寄存 器 中 的 ， 那 么 在 指令 的 执行 期 间 ， 在 0 
个 周期 内 就 能 访问 到 它们 。 如 果 存 储 在 高 速 缓存 中 ， 需 要 4 一 75 个 周期 。 如 果 存 储 在 主 存 
中 ， 需 要 上 百 个 周期 。 而 如 果 存 储 在 磁盘 上 ， 需 要 大 约 几 千 万 个 周期 ! 

这 里 就 是 计算 机 系统 中 一 个 基本 而 持久 的 思想 : 如 果 你 理解 了 系统 是 如 何 将 数据 在 存 
储 需 层次 结构 中 上 上 下 下 移动 的 ， 那 么 你 就 可 以 编写 自己 的 应 用 程序 ， 使 得 它们 的 数据 项 
存储 在 层次 结构 中 较 高 的 地 方 ， 在 那里 CPU 能 更 快 地 访问 到 它们 。 

这 个 思想 围绕 着 计算 机 程序 的 一 个 称 为 局 部 性 (locality) 的 基本 属性 。 具 有 和 良好 局 部 性 
的 程序 倾 癌 于 一 次 又 一 次 地 访问 相同 的 数据 项 集合 ， 或 是 倾向 于 访问 邻近 的 数据 项 集合 。 
具有 良好 局 部 性 的 程序 比 局 部 性 差 的 程序 更 多 地 倾向 于 从 存储 需 层 次 结构 中 较 高 层次 处 访 
问 数据 项 ， 因 此 运行 得 更 快 。 例 如 ， 在 Core i7 系统 ， 不同 的 矩阵 乘法 核心 程序 执行 相同 
数量 的 算术 操作 ， 但 是 有 不 同 程 度 的 局 部 性 ， 它 们 的 运行 时 间 可 以 相差 40 倍 ! 

在 本 章 中 ， 我 们 会 看 看 基本 的 存储 技术 SRAM 存储 器 、DRAM 存储 器 、ROM 存 
储 需 以 及 旋转 的 和 固态 的 硬盘 一 一 并 描述 它们 是 如 何 被 组 织 成 层次 结构 的 。 特 别 地 ， 我 们 
将 注意 力 集中 在 高 速 缓存 存储 器 上 ， 它 是 作为 CPU 和 主 存 之 间 的 缓存 区 域 ， 因 为 它们 对 
应 用 程序 性 能 的 影响 最 大 。 我 们 回 你 展示 如 何 分 析 C 程序 的 局 部 性 ， 并 且 介 绍 改进 你 的 程 
序 中 局 部 性 的 技术 。 你 还 会 学 到 一 种 描绘 某 台 机 器 上 存储 器 层次 结构 的 性 能 的 有 趣 方法 ， 
称 为 “存储 器 山 (memory mountain)”， 它 展示 出 读 访 问 时 间 是 局 部 性 的 一 个 函数 。 


6. 1 存储 技术 
计算 机 技术 的 成 功 很 大 程度 上 源 自 于 存储 技术 的 巨大 进步 。 早 期 的 计算 机 只 有 几 千 字 
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节 的 随机 访问 存储 器 。 最 早 的 IBM PC 甚至 于 没有 硬盘 。1982 年 引入 的 IBM PC-XT 有 10M 
字 节 的 磁盘 。 到 2015 年 ， 典 型 的 计算 机 已 有 300 000 倍 于 PC-XT 的 磁盘 存储 ， 而 且 磁 盘 
的 容量 以 每 两 年 加 倍 的 速度 增长 。 


6.1.1 随机 访问 存储 器 


随机 访问 存储 器 (Random-Access Memory，RAM) 分 为 两 类 ， 静态 的 和 动态 的 。 静 态 
RAM(SRAM) 比 动态 RAM(DRAM) 更 快 ， 但 也 贵 得 多 。SRAM 用 来 作为 高 速 缓存 存储 
器 ， 既 可 以 在 CPU 芯片 上 ， 也 可 以 在 片 下 。DRAM 用 来 作为 主 存 以 及 图 形 系统 的 帧 缓冲 
区 。 典 型 地 ， 一 个 桌面 系统 的 SRAM 不 会 超过 几 兆 字 节 ， 但 是 DRAM 却 有 几 百 或 几 和 干 兆 
字 节 。 

1. 静态 RAM 

SRAM 将 每 个 位 存储 在 一 个 双 稳 态 的 (bistable) 存 储 器 单元 里 。 每 个 单元 是 用 一 个 六 
晶体 管 电路 来 实现 的 。 这 个 电路 有 这 样 一 个 属性 ， 它 可 以 无 限期 地 保持 在 两 个 不 同 的 电压 
配置 (configuration) 或 状态 (state) 之 一 。 其 他 任何 状态 都 是 不 稳定 的 一 一 从 不 稳定 状态 开 
始 ， 电 路 会 迅速 地 转移 到 两 个 稳定 状态 中 的 一 个 。 这 样 一 个 存储 占 单 元 类 似 于 图 6-1 中 男 
出 的 倒转 的 钟 摆 。 





图 6-1 倒转 的 钟 皖 。 同 SRAM 单元 一 样 ， 钟 摆 只 有 两 个 稳定 的 配置 或 状态 
当 钟 摆 倾 斜 到 最 左边 或 最 右边 时 ， 它 是 稳定 的 。 从 其 他 任何 位 置 ， 钟 摆 都 会 倒 癌 一 边 
或 另 一 边 。 原 则 上 ， 钟 摆 也 能 在 垂直 的 位 置 无 限期 地 保持 平衡 ， 但 是 这 个 状态 是 亚 稳 态 的 
最 细微 的 扰动 也 能 使 它 倒 下 ， 而 且 一 且 倒 下 就 永远 不 会 再 恢复 到 垂直 的 





(metastable) 
位 置 。 

由 于 SRAM 存储 器 单元 的 双 稳 态 特性 ， 只 要 有 电 ， 它 就 会 永远 地 保持 它 的 值 。 即 使 
有 干扰 (例如 电子 噪音 ) 来 扰乱 电压 ， 当 干扰 消除 时 ， 电 路 就 会 恢复 到 稳定 值 。 

2. 动态 RAM 

DRAM 将 每 个 位 存储 为 对 一 个 电容 的 充电 。 这 个 电容 非常 小 ， 通 常 只 有 大 约 30 暑 微 
微 法 拉 (femtofarad) 30X10 “法拉 。 不过， 回想 一 下 法 拉 是 一 个 非常 大 的 计量 单位 。 
DRAM 存储 器 可 以 制造 得 非常 密集 一 一 每 个 单元 由 一 个 电容 和 一 个 访问 晶体 管 组 成 。 但 
是 ， 与 SRAM 不 同 ，DRAM 存储 器 单元 对 干扰 非常 敏感 。 当 电容 的 电压 被 扰乱 之 后 ， 它 
就 永远 不 会 恢复 了 。 暴 露 在 光线 下 会 导致 电容 电压 改变 。 实 际 上 ， 数 码 照 相机 和 摄像 机 中 
的 传感器 本 质 上 就 是 DRAM 单元 的 阵列 。 

很 多 原因 会 导致 漏电 ， 使 得 DRAM 单元 在 10 一 100 毫秒 时 间 内 失去 电 人 和 荷 。 泣 运 的 是 ， 
计算 机 运行 的 时 钟 周期 是 以 纳 秒 来 衡量 的 ， 所 以 相对 而 言 这 个 保持 时 间 是 比较 长 的 。 内 存 
系统 必须 周期 性 地 通过 读 出 ， 然 后 重 写 来 刷新 内 存 每 一 位 。 有 些 系统 也 使 用 纠 错 码 ， 其 中 
计算 机 的 字 会 被 多 编码 几 个 位 (例如 64 位 的 字 可 能 用 72 位 来 编码 )， 这 样 一 来 ， 电 路 可 以 
发 现 并 纠正 一 个 字 中 任何 单个 的 错误 位 。 
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图 6-2 总 结 了 SRAM 和 DRAM 存储 器 的 特性 。 只 要 有 供电 ，SRAM 就 会 保持 不 变 。 
与 DRAM 不 同 ， 它 不 需要 刷新 。SRAM 的 存 取 比 DRAM 快 。SRAM 对 诸如 光 和 电 噪 声 
这 样 的 干扰 不 敏感 。 代 价 是 SRAM 单元 比 DRAM 单元 使 用 更 多 的 晶体 管 ， 因 而 密集 度 
低 ， 而 且 更 贯 ， 功 耗 更 大 。 


| 每 位 晶体 管 数 | 相对 访问 时 间 相对 花费 












SRAM | 6 | tx | 是 | 否 | 1000xX | 高 速 级 存 存 储 器 
| PRAM | 1 | Wx | 否 | 是 | 1x | 存 , 帧 级 溃 区 





图 6-2 DRAM 和 SRAM 存储 器 的 特性 


3. 传统 的 DRAM 

DRAM 芯片 中 的 单元 (位 ) 被 分 成 d 个 超 单 元 (supercell)， 每 个 超 单元 都 由 ww 个 DRAM 
单元 组 成 。 一 个 dX 多 的 DRAM 总 共存 储 了 dw 位 信息 。 超 单元 被 组 织 成 一 个 r+ 行 c 列 的 长 
方形 阵列 ， 这 里 rc 二 d。 每 个 超 单 元 有 形 如 (i， 门 的 地 址 ， 这 里 i 表示 行 ， 而 j 表示 列 。 

例如 ， 图 6-3 展示 的 是 一 个 16X8 的 DRAM 芯片 的 组 织 ， 有 d= 二 16 个 超 单元 ， 每 个 超 单 
元 有 ww 二 8 位，r 二 4 行 ，c 二 4 列 。 带 阴影 的 方 框 表示 地 址 (2，1) 处 的 超 单 元 。 信 息 通 过 称 为 
引 脚 Cpin) 的 外 部 连接 需 流 入 和 流出 芯片 。 每 个 引 脚 携带 一 个 1 位 的 信号 。 图 6-3 给 出 了 两 组 
引 脚 : 8 个 aata 引 脚 ， 它 们 能 传送 一 个 字 节 到 芯片 或 从 芯片 传 出 一 个 字 节 ， 以 及 2 个 addr 
引 脚 ， 它 们 携带 2 位 的 行 和 列 超 单元 地 址 。 其 他 携带 控制 信息 的 引 脚 没有 显示 出 来 。 






人 内 存 
二 
py 控制 器 
( 到 CPU ) 


EET 


图 6-3 一 个 128 位 16X8 的 DRAM 芯片 的 高 级 视图 


臣下 关于 术语 的 注释 


存储 领域 从 来 没有 为 DRAM 的 阵列 元 素 确定 一 个 标准 的 名 字 。 计 算 机 构架 师 倾向 
于 称 之 为 “单元 ”， 使 这 个 术语 具有 DRAM 存储 单元 之 意 。 电 路 设计 者 倾向 于 称 之 为 
“ 字 ”， 使 之 具有 主 存 一 个 字 之 意 。 为 了 避免 混淆 ， 我 们 采用 了 无 歧义 的 术语 “ 超 单元 ”。 


每 个 DRAM 芯片 被 连接 到 某 个 称 为 内 存 控制 器 (memory controller) 的 电路 ， 这 个 电 
路 可 以 一 次 传送 也 位 到 每 个 DRAM 芯片 或 一 次 从 每 个 DRAM 芯片 传 出 也 位 。 为 了 读 出 
超 单元 (z，7 的 内 容 ， 内 存 控制 右 将 行 地 址 ;发 送 到 DRAM， 然 后 是 列 地 址 /。DRAM 把 
超 单元 (，7) 的 内 容 发 回 给 控制 硕 作 为 啊 应 。 行 地 址 ; 称 为 RASCRow Access Strobe， 行 
访问 选 通 脉冲 ) 请 求 。 列 地 址 7 称 为 CASCColumn Access Strobe， 列 访问 选 通 脉冲 ) 请 求 。 
注意 ，RAS 和 CAS 请 求 共 享 相同 的 DRAM 地 址 引 脚 。 


例如 ， 要 从 图 6-3 中 16X8 的 DRAM 中 读 出 超 单元 (2，1)， 内 存 控制 顺 发 送行 地 址 
2， 如 图 6-4a 所 示 。DRAM 的 响应 是 将 行 2 的 整个 内 容 都 复制 到 一 个 内 部 行 缓冲 区 。 接 下 
来 ， 内 存 控制 器 发 送 列 地 址 1， 如 图 6-4b 所 示 。DRAM 的 响应 是 从 行 缓冲 区 复制 出 超 单 
元 (2，1) 中 的 8 位 ， 并 把 它们 发 送 到 内 存 控制 硕 。 






”内 部 行 缓冲 区 


人 


a ) 选择 行 2 (RAS 请 求 ) b ) 选择 列 1 (CAS 请 求 ) 





图 6-4 读 一 个 DRAM 超 单元 的 内 容 


电路 设计 者 将 DRAM 组 织 成 二 维 阵 列 而 不 是 线性 数组 的 一 个 原因 是 降低 芯片 上 地 址 
引 脚 的 数量 。 例 如 ， 如 果 示 例 的 128 位 DRAM 被 组 织 成 一 个 16 个 超 单 元 的 线性 数组 ， 地 
址 为 0 一 15， 那 么 必 片 会 需要 4 个 地 址 引 脚 而 不 是 2 个 。 二 维 阵 列 组织 的 缺点 是 必须 分 两 
步 发 送 地 址 ， 这 增加 了 访问 时 间 。 

4. 内 存 模块 

DRAM 芯片 封装 在 内 存 模 块 (memory module) 中 ， 它 插 到 主板 的 扩展 槽 上 。Core 17 
系统 使 用 的 240 个 引 脚 的 双 列 直 插 内 存 模块 (Dual Inline Memory Module，DIMM) ， 它 以 
64 位 为 块 传送 数据 到 内 存 控制 莫 和 从 内 存 控制 冀 传 出 数据 。 

图 6-5 展示 了 一 个 内 存 模块 的 基本 思想 。 示 例 模块 用 8 个 64 Mbit 的 8 MxX8 的 DRAM 
芯片 ， 总 共存 储 64MB( 兆 字 市 )， 这 8 个 芯片 编号 为 0~~7。 每 个 超 单 元 存储 主 存 的 一 个 字 市 ， 
而 用 相应 超 单 元 地 址 为 (i，7) 的 8 个 超 单元 来 表示 主 存 中 字 广 地 址 A 处 的 64 位 字 。 在 图 6-5 
的 示例 中 ，DRAM 0 存储 第 一 个 (低位 ) 字 节 ，DRAM 1 存储 下 一 个 字 节 ， 依 此 类 推 。 

要 取出 内 存 地 址 A 处 的 一 个 字 ， 内 存 控制 硕 将 A 转换 成 一 个 超 单元 地 址 (z，7)， 并 将 
它 发 送 到 内 存 模块 ， 然 后 内 存 模 块 再 将 i 和 j 广播 到 每 个 DRAM。 作 为 啊 应 ， 每 个 
DRAM 输出 它 的 (i， 门 超 单元 的 8 位 内 容 。 模 块 中 的 电路 收集 这 些 输出 ， 并 把 它们 合并 成 
一 个 64 位 字 ， 再 返回 给 内 存 控制 锅 。 

通过 将 多 个 内 存 模 块 连接 到 内 存 控制 器 ， 能 够 聚合 成 主 存 。 在 这 种 情况 中 ， 妆 控制 天 
收 到 一 个 地 址 A 时 ， 控 制 絮 选择 包含 A 的 模块 上 ， 将 A 转换 成 它 的 (i， 7 的 形式 ， 并 将 
(i，]) 发 送 到 模块 。 

FS 练习 题 6. 1 接 下 来 设 r 表 示 一 个 DRAM 阵列 中 的 行 数 ，c 表示 列 数 ， 表示 行 寻 
址 所 需 的 位 数 ，2. 表示 列 寻 址 所 需 的 位 数 。 对 于 下 面 每 个 DRAM， 确定 2 的 具 数 的 
阵列 维 数 ， 使 得 max(b,，b.) 最 小 ，max(b,，b.) 是 对 阵列 的 行 或 列 寻 址 所 需 的 位 数 中 
较 大 的 值 。 
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口 : 超 单元 (ii， j) 


由 8 个 8M x 8 的 
DRAM 组 成 的 64MB 
内 存 模 块 





0 





63 







5655 4847 4039 3231 2423 1615 87 





内 存 
控制 器 







位 于 主 存 地 址 A 处 的 64 位 字 


到 CPU 芯片 的 64 位 字 






图 6-5 该 一 个 内 存 模 抉 的 内 容 


5. 增强 的 DRAM 
有 许多 种 DRAM 存储 器 ， 而 生产 厂商 试图 跟 上 迅速 增长 的 处 理 右 速度 ， 市场 上 就 会 
定期 推出 新 的 种 类 。 每 种 都 是 基于 传统 的 DRAM 单元 ， 并 进行 一 些 优化 ， 提 高 访问 基本 
DRAM 单元 的 速度 。 
@ 快 页 模式 DRAM(Fast Page Mode DRAM，FPM DRAM)。 传统 的 DRAM 将 超 单 
元 的 一 整 行 复制 到 它 的 内 部 行 缓冲 区 中 ， 使 用 一 个 ， 然 后 丢弃 剩余 的 。FPM 
DRAM 允许 对 同一 行 连续 地 访问 可 以 直接 从 行 缓冲 区 得 到 服务 ， 从 而 改进 了 这 一 
点 。 例 如 ， 要 从 一 个 传统 的 DRAM 的 行 i 中 读 4 个 超 单元 ， 内 存 控制 器 必须 发 送 4 
个 RAS/CAS 请 求 ， 即 使 是 行 地 址 i 在 每 个 情况 中 都 是 一 样 的 。 要 从 一 个 FPM 
DRAM 的 同一 行 中 读 取 超 单 元 ， 内 存 控 制 絮 发 送 第 一 个 RAS/CAS 请 求 ， 后面 跟 三 
个 CAS 请求。 初始 的 RAS/CAS 请 求 将 行 复制 到 行 缓 冲 区 ， 并 返回 CAS 寻 址 的 那个 
超 单 元 。 接 下 来 三 个 超 单 元 直接 从 行 缓冲 区 获得 ， 因 此 返回 得 比 初 始 的 超 单元 更 快 。 
@ 扩展 数据 输出 DRAM(Extended Data Out DRAM，EDO DRAM) 。FPM DRAM 的 
一 个 增强 的 形式 ， 它 允许 各 个 CAS 信号 在 时 间 上 人 靠 得 更 紧密 一 点 。 


@ 同步 DRAM(Synchronous DRAM，SDRAM) 。 就 它们 与 内 存 探 制 器 通信 使 用 一 组 显 式 的 
控制 信号 来 说 ， 常 规 的 、FPM 和 EDO DRAM 都 是 异步 的 。SDRAM 用 与 驱动 内 存 控制 
器 相同 的 外 部 时 钟 信 号 的 上 升 沿 来 代替 许多 这 样 的 控制 信号 。 我 们 不 会 深信 讨论 细 站 ， 
最 终 效果 就 是 SDRAM 能 够 比 那些 异步 的 存储 器 更 快 地 输出 它 的 超 单元 的 内 容 。 

@ 双 倍 数据 速率 同步 DRAM (Double Data-Rate Synchronous DRAM, DDR SDRAM)， 
DDR SDRAM 是 对 SDRAM 的 一 种 增强 ， 它 通过 使 用 两 个 时 钟 沿 作为 控制 信号 ， 
从 而 使 DRAM 的 速度 翻 倍 。 不 同类 型 的 DDR SDRAM 是 用 提高 有 效 刘 宽 的 很 小 的 
预 取 缓 冲 区 的 大 小 来 划分 的 :， DDR(2 位 )、DDR2(4 位 ) 和 DDR(8 位 )。 

@ 视频 RAM(Video RAM,，VRAM)。 它 用 在 图 形 系统 的 帧 缓冲 区 中 。VRAM 的 思想 
与 FPM DRAM 类 似 。 两 个 主要 区 别 是 : 1) YRAM 的 输出 是 通过 依次 对 内 部 缓冲 
区 的 整个 内 容 进 行 移 位 得 到 的 ; 2) VRAM 允许 对 内 存 并 行 地 读 和 写 。 因 此 ， 系 统 
可 以 在 写 下 一 次 更 新 的 新 值 ( 写 ) 的 同时 ， 用 帧 缓冲 区 中 的 像素 刷 屏 篆 ( 读 )， 


直到 1995 年 ， 大 多 数 PC 都 是 用 FPM DRAM 构造 的 。1996 一 1999 年 ，EDO 
DRAM 在 市 场 上 占据 了 主导 , 而 FPM DRAM 几乎 销声匿迹 了 。SDRAM 最 早出 现在 
1995 年 的 高 端 系统 中 ， 到 2002 年 ， 大 多 数 PC 都 是 用 SDRAM 和 DDR SDRAM 制造 
的 。 到 2010 年 之 前 ， 大 多 数 服务 器 和 桌面 系统 都 是 用 DDR3 SDRAM 构造 的 。 实 际 上 ， 
Intel Core 17 只 支持 DDR3 SDRAM 。 


6. 非 易 失 性 存储 器 

如 果断 电 ，DRAM 和 SRAM 会 丢失 它们 的 信息 ， 从 这 个 意义 上 说 ,它们 是 多 失 的 
(volatile) 。 另 一 方面 ， 非 易 失 性 存储 器 (Cnonvolatile memory) 即 使 是 在 关 电 后 ， 仍 然 保 存 
着 它们 的 信息 。 现 在 有 很 多 种 非 易 失 性 存储 器 。 由 于 历 中 原因， 虽然 ROM 中 有 的 类 型 既 
可 以 读 也 可 以 写 ， 但 是 它们 整体 上 都 被 称 为 只 读 存 储 器 (Read-Only Memory，ROM ) 。 
ROM 是 以 它们 能 够 被 重 编程 ( 写 ) 的 次 数 和 对 它们 进行 重 编程 所 用 的 机 制 来 区 分 的 。 

PROM(Programmable ROM， 可 编程 ROM) 只 能 被 编程 一 次 。PROM 的 每 个 存储 痢 
单元 有 一 种 熔 丝 Cfuse)， 只 能 用 高 电流 熔断 一 次 。 

可 擦 写 可 编程 ROM(Erasable Programmable ROM，EPROM) 有 一 个 透明 的 石英 窗 
口 ， 允 许 光 到 达 存 储 单元 。 紫 外 线 光 照射 过 窗口 ，EPROM 单元 就 被 清除 为 0。 对 
EPROM 编程 是 通过 使 用 一 种 把 1 写 人 EPROM 的 特殊 设备 来 完成 的 。EPROM 能 够 被 擦 
除 和 重 编程 的 次 数 的 数量 级 可 以 达到 1000 次 。 电 子 可 擦 除 PROM (Electrically Erasable 
PROM，EEPROM) 类 似 于 EPROM， 但 是 它 不 需要 一 个 物理 上 独立 的 编程 设备 ， 因 此 可 
以 直接 在 印 制 电路 卡 上 编程 。EEPROM 能 够 被 编程 的 次 数 的 数量 级 可 以 达到 10 次 。 

闪存 (flash memory) 是 一 类 非 易 失 性 存储 器 ， 基 于 EEPROM， 它 已 经 成 为 了 一 种 重 
要 的 存储 技术 。 闪 存 无 处 不 在 ， 为 大 量 的 电子 设备 提供 快速 而 持久 的 非 易 失 性 人 存储， 包括 
数码 相机 、 手 机 、 音 乐 播放 器 、PDA 和 笔记 本 、 人 台式 机 和 服务 器 计算 机 系统 。 在 6.1.3 
节 中 ， 我 们 会 仔细 研究 一 种 新 型 的 基于 闪存 的 磁盘 驱动 硕 ， 称 为 固态 硬盘 (Solid State 
Disk，SSD)， 它 能 提供 相对 于 传统 旋转 磁盘 的 一 种 更 快速 、 更 强健 和 更 低能 耗 的 选择 。 

存储 在 ROM 设备 中 的 程序 通常 被 称 为 固件 (firmware)。 当 一 个 计算 机 系统 通电 以 后 ， 
它 会 运行 存储 在 ROM 中 的 固件 。 一 些 系 统 在 固件 中 提供 了 少量 基本 的 输入 和 输出 郴 
数 一 一 例如 PC 的 BIOS( 基 本 输入 /输出 系统 ) 例 程 。 复 杂 的 设备 ， 像 图 形 卡 和 磁盘 驱动 控 
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制 器 ， 也 依赖 固件 翻译 来 自 CPU 的 IO( 输 入 /输出 ) 请 求 。 

7. 访问 主 存 

数据 流通 过 称 为 总 线 (bus) 的 共享 电子 电路 在 处 理 器 和 DRAM 主 存 之 间 来 来 回回 。 每 
次 CPU 和 主 存 之 间 的 数据 传送 都 是 通过 一 系列 步骤 来 完成 的 ， 这 些 步 又 称 为 总 线 事务 
(bus transaction) 。 读 事务 (read transaction) 从 主 存 传送 数据 到 CPU。 写 事务 (write trans- 
action) 从 CPU 传送 数据 到 主 存 。 

总 线 是 一 组 并 行 的 导线 ， 能 携带 地 址 、 数 据 和 控制 信号 。 取 决 于 总 线 的 设计 ， 数 据 和 
地 址 信号 可 以 共享 同一 组 导线 、 也 可 以 使 用 不 同 的 。 同 时 ， 两 个 以 上 的 设备 也 能 共享 同一 
总 线 。 控 制 线 携带 的 信号 会 同步 事务 ， 并 标识 出 当前 正在 被 执行 的 事务 的 类 型 。 例 如 ， 当 
前 关注 的 这 个 事务 是 到 主 存 的 吗 ? 还 是 到 诸如 磁盘 控制 器 这 样 的 其 他 I/O 设备 ? 这 个 事务 
是 读 还 是 写 ? 总 线 上 的 信息 是 地 址 还 是 数据 项 ? 

图 6-6 展示 了 一 个 示例 计算 机 系统 的 配置 。 主 要 部 件 是 CPU 芯片 、 我 们 将 称 为 IO 
桥接 器 (IO bridge) 的 芯片 组 (其 中 包括 内 存 控制 器 )， 以 及 组 成 主 存 的 DRAM 内 存 模块 。 
这 些 部 件 由 一 对 总 线 连接 起 来 ， 其 中 一 条 总 线 是 系统 总 线 (system bus)， 它 连接 CPU 和 
I/O 〇 桥接 器 ， 男 一 条 总 线 是 内 存 总 线 (memory bus)， 它 连接 IZO 桥接 兹 和 主 存 。1/O 桥接 
右 将 系统 总 线 的 电子 信号 翻译 成 内 存 总 线 的 电子 信号 。 正 如 我 们 看 到 的 那样 ，I1/O 桥 也 将 
系统 总 线 和 内 存 总 线 连 接 到 1/O 总 线 ， 像 磁盘 和 图 形 卡 这 样 的 I/O 设备 共享 IO 总 线 。 不 
过 现在 ， 我 们 将 注意 力 集 中 在 内 存 总 线 上 。 


CPU 上 芯片 






寄存 需 文 件 


EE 
三 加 一 
系统 总 线 内 


存 总 线 
加 


图 6-6 连接 CPU 和 主 存 的 总 线 结构 示例 


旁 注 | 关于 总 线 设计 的 注释 

总 线 设计 是 计算 机 系统 一 个 复杂 而 且 变 化 迅速 的 方面 。 不 同 的 厂商 提出 了 不 同 的 总 线 
体系 结构 ， 作 为 产品 差异 化 的 一 种 方法 。 例如，Intel 系统 使 用 称 为 北桥 (northbridge) 和 南 
桥 (southbridge) 的 芯片 组 分 别 将 CPU 连接 到 内 存 和 I/O 〇 设备 。 在 比较 老 的 Pentium 和 Core 
2 系统 中 ， 前 端 总 线 (Front Side Bus，FSB) 将 CPU 连接 到 北桥 。 来 自 AMD 的 系统 将 FSB 
替换 为 超 传输 (HyperTIransport ) 互 联 ， 而 更 新 一 些 的 Intel Core 17 系统 使 用 的 是 快速 通道 
(QuickPath) 互 联 。 这 些 不 同 总 线 体 系 结 构 的 细节 超出 了 本 书 的 范围 。 反 之 ， 我 们 会 使 用 图 
6-6 中 的 高 级 总 线 体 系 结构 作为 一 个 运行 示例 贯穿 本 书 。 这 是 一 个 简单 但 是 有 用 的 抽象 ， 
使 得 我 们 可 以 很 具体 ， 并 且 可 以 掌握 主要 思想 而 不 必 与 任何 私有 设计 的 细节 绑 得 太 紧 。 


考虑 当 CPU 执行 一 个 如 下 加 载 操 作 时 会 发 生 什么 


movg A,hrax 


这 里 ， 地 址 A 的 内 容 被 加 载 到 寄存 器 $srax 中 。CPU 世上 片上 称 为 总 线 接 口 (bus interface) 
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的 电路 在 总 线 上 发 起 读 事务 。 读 事务 是 由 三 个 步骤 组 成 的 。 首 先 ，CPU 将 地 址 A 放 到 系 
统 总 线 上 。1/O 桥 将 信号 传递 到 内 存 总 线 ( 图 6-7a) 。 接 下 来 ， 主 存 感觉 到 内 存 总 线 上 的 地 
址 信号 ， 从 内 存 总 线 读 地 址 ， 从 DRAM 取出 数据 字 ， 并 将 数据 写 到 内 存 总 线 。1/O 桥 将 


内 人 存 总 线 信号 翻译 成 系统 总 线 信 号 ， 然 后 沿 着 系统 总 线 传递 (图 6-7b)。 最 后 ，CPU 感觉 
到 系统 总 线 上 的 数据 ， 从 总 线 上 读数 据 ， 并 将 数据 复制 到 寄存 器 gsrax( 图 6-7c) 。 
寄存 需 文 件 
尘 荆 己 叉 ALU 
1/O 桥 主 存 


心 
3 


总 线 接口 


a ) CPU 将 地 址 4 放 到 内 存 总 线 上 
寄存 带 文 件 


ALU 


Ta 





b ) 主 存 从 总 线 读 出 4， 取 出 字 x， 然 后 将 x 放 到 总 线 上 
寄存 器 文件 








c ) CPU 从 总 线 读 出 字 x， 并 将 它 复制 到 寄存 器 szax 中 
图 6-7 加 载 操作 movgqA,%rax 的 内 存 读 事务 
反 过 来 ， 当 CPU 执行 一 个 像 下 面 这 样 的 存储 操作 时 
movg hrax,A 
这 里 ， 寄 存 器 srax 的 内 容 被 写 到 地 址 A，CPU 发 起 写 事 务 。 同 样 ， 有 三 个 基本 步骤 。 首 先 ， 
CPU 将 地 址 放 到 系统 总 线 上 。 内 存 从 内 存 总 线 读 出 地 址 ， 并 等 待 数据 到 达 ( 图 6-8a) 。 接 下 
来 ，CPU 将 srax 中 的 数据 字 复 制 到 系统 总 线 ( 图 6-8b)。 最 后 ， 主 存 从 内 存 总 线 读 出 数据 
字 ， 并 且 将 这 些 位 存储 到 DRAM 中 (图 6-8c)。 
6. 1.2 磁盘 存储 


磁盘 是 广 为 应 用 的 保存 大 量 数 据 的 存储 设备 ， 存 储 数 据 的 数量 级 可 以 达到 几 百 到 几 千 
于 兆 字 节 ， 而 基于 RAM 的 存储 器 只 能 有 几 百 或 几 千 兆 字 节 。 不 过 ， 从 磁盘 上 读 信 息 的 时 
间 为 训 秒 级 ， 比 从 DRAM 读 慢 了 10 万 倍 ， 比 从 SRAM 读 慢 了 100 万 倍 。 
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a) CPU 将 地 址 4 放 到 内 存 总 线 。 主 存 读 出 这 个 地 址 ， 并 等 待 数据 字 
寄存 右 文 件 





c ) 主 存 从 总 线 读数 据 字 y， 并 将 它 存 储 在 地 址 4 
图 6-8 存储 操作 mova s rax,A 的 内 存 写 事务 


1. 磁盘 构造 

磁盘 是 由 盘 片 (platter) 构 成 的 。 每 个 盘 片 有 两 面 或 者 称 为 表面 (surface)， 表 面 覆 盖 着 
磁性 记录 材料 。 盘 片 中 央 有 一 个 可 以 旋转 的 主轴 (spindle)， 它 使 得 盘 片 以 固定 的 旋转 速率 
(rotational rate) 旋 转 ， 通 党 是 5400 一 15 000 转 每 分 钟 (Revolution Per Minute，RPM)。 磁 
盘 通常 包含 一 个 或 多 个 这 样 的 盘 片 ， 并 封装 在 一 个 密封 的 容 需 内 。 

图 6-9a 展示 了 一 个 典型 的 磁盘 表面 的 结构 。 每 个 表面 是 由 一 组 称 为 磁道 (track) 的 同 
心 圆 组 成 的 。 每 个 磁道 被 划分 为 一 组 扇 区 (sector) 。 每 个 鹿 区 包含 相等 数量 的 数据 位 (通常 
是 512 字 节 )， 这 些 数据 编码 在 恒 区 上 的 磁性 材料 中 。 朵 区 之 间 由 一 些 间 隙 (gap) 分 隔 开 ， 
这 些 间 际 中 不 存储 数据 位 。 间 陀 存 储 用 来 标识 扇 区 的 格式 化 位 。 

伐 盘 是 由 一 个 或 多 个 到 放 在 一 起 的 盘 片 组 成 的 ， 它 们 被 封装 在 一 个 密封 的 包装 里 ， 如 
图 6-9b 所 示 。 整 个 装置 通常 被 称 为 磁盘 驱动 器 (disk drive)， 我们 通常 简称 为 磁盘 (disk)。 
有 了 时， 我 们 会 称 人 磁盘 为 旋转 磁盘 (rotating disk)， 以 使 之 区 别 于 基于 闪存 的 固态 硬盘 
(SSD)，SSD 是 没有 移动 部 分 的 。 

磁盘 制造 商 通常 用 术语 柱 面 (cylinder) 来 朱 述 多 个 盘 片 驱动 器 的 构造 ， 这 里 ， 柱 面 是 
所 有 盘 片 表面 上 到 主轴 中 心 的 距离 相等 的 磁道 的 集合 。 例 如 ， 如 果 一 个 驱动 器 有 三 个 盘 片 
和 六 个 面 ， 每 个 表面 上 的 磁道 的 编号 都 是 一 致 的 ,那么 柱 面 & 就 是 6 个 磁道 & 的 集合 。 





主轴 
a ) 一 个 盘 片 的 视图 b ) 多 个 盘 片 的 视图 


图 6-9 磁盘 构造 


2. 磁盘 容量 

一 个 磁盘 上 可 以 记录 的 最 大 位 数 称 为 它 的 最 大 容量 ,或 者 简称 为 容量 。 磁 盘 容 量 是 由 
以 下 技术 因素 决定 的 : 

@ 记录 密度 (recording density)( 位 /英寸 ); 位 道 一 英寸 的 段 中 可 以 放 入 的 位 数 。 

@ 磁道 密度 (track density)( 道 /英寸 ): 从 盘 片 中 心 出 发 半径 上 一 英寸 的 段 内 可 以 有 的 

磁道 数 。 

@ 面 密 度 (areal density)( 位 /平方 英寸 ): 记录 密度 与 磁道 密度 的 乘积 。 

磁盘 制造 商 不懈 地 努力 以 提高 面 密度 (从 而 增加 容量 )， 而 面 密度 每 隔 几 年 就 会 翻 倍 。 
最 初 的 磁盘 ， 是 在 面 密度 很 低 的 时 代 设 计 的 ， 将 每 个 磁道 分 为 数目 相同 的 鹿 区 ， 忆 区 的 数 
目 是 由 最 靠 内 的 磁道 能 记录 的 书 区 数 决 定 的 。 为 了 保持 每 个 磁道 有 固定 的 而 区 数 ， 越 往外 
的 磁道 扇 区 隔 得 越 开 。 在 面 密 度 相 对 比较 低 的 时 候 ， 这 种 方法 还 算 合理 。 不 过 ， 随 着 面 密 
度 的 提高 ， 扇 区 之 间 的 间 院 (那里 没有 存储 数据 位 ) 变 得 不 可 接受 地 大 。 因 此 ， 现 代 大 容量 
磁盘 使 用 一 种 称 为 多 区 记录 (multiple zone recording) 的 技术 ， 在 这 种 技术 中 ， 柱 面 的 集合 
被 分 割 成 不 相交 的 子 集合 ， 称 为 记录 区 (recording zone)。 每 个 区 包含 一 组 连续 的 柱 面 。 一 
个 区 中 的 每 个 柱 面 中 的 每 条 磁道 都 有 相同 数量 的 局 区 ， 这 个 山区 的 数量 是 由 该 区 中 最 里 面 
的 磁道 所 能 包含 的 局 区 数 确定 的 。 

下 面 的 公式 给 出 了 一 个 磁盘 的 容量 : 

Ea 字 节 平 技 磁 ; 
中 检 容 量 一 字 书 数 X 平 均 该 区 数 x 磁 六 教 、 闪 面 数 、 盘 片 

例如 ， 假设 我 们 有 一 个 磁盘 ， 有 5 个 盘 片 ， 每 个 悄 区 512 个 字 节 ， 每 个 面 20 000 条 磁道 ， 
每 条 磁道 平均 300 个 而 区 。 那 么 这 个 磁盘 的 容量 是 : 


三 瞧 容量 一 5]2 字 节 x 300 遍 区 x 20000 磁道 2 表面 5 本 上 

















 ” “ 扇 区 磁道 表面 盘 片 磁盘 
一 30 720 000 000 字 节 
=30. 7 扩 7 台 


注意 ， 人 制造 商 是 以 千 兆 字 节 (GB) 或 兆 兆 字 节 (TB) 为 单位 来 表达 磁盘 容量 的 ， 这 里 
1GB 二 10" 字 节 ，1TB 二 10“ 字 节 。 


国 河 一 千 兆 字 节 有 多 大 


不 幸 地 ， 像 多 (kilo)、MCmega) 、GCgiga) 和 T(Ctera) 这样 的 前 组 的 含义 依 顿 于 上 下 
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文 。 对 于 与 DRAM 和 SRAM 容量 相关 的 计量 单位 ， 通 常 K 一 20，M 王 220 ，G 一 230 ， 而 
T 一 240 。 对 于 与 像 磁 盘 和 网 络 这 样 的 I/O 设备 容量 相关 的 计量 单位 ， 通 常 多 王 103， 
M 王 10" ，G 二 10”,， 而 T 王 102。 速 率 和 符 吐 量 常常 也 使 用 这 些 前 缓 。 

幸运 地 ， 对 于 我 们 通常 依赖 的 不 需要 复杂 计算 的 估计 值 ， 无 论 是 哪 种 假设 在 实际 中 
都 工作 得 很 好 。 例 如 ，2 "和 10' 之 间 的 相对 差别 不 大 : (2” 一 10” )/10” 守 7%。 类 似 ， 
(20—10'2)/10*A10%。 


度 浊 练习 题 6.2 计算 这 样 一 个 磁盘 的 容量 ， 它 有 2 个 盘 片 ，10 000 个 柱 面 ， 每 条 磁道 平 

均 有 400 个 遍 区 ， 而 每 个 遍 区 有 512 个 字 节 。 

3. 磁盘 操作 

磁盘 用 读 / 写 头 (read/ write head) 来 读 写 存储 在 磁性 表面 的 位 ， 而 读 写 头 连接 到 一 个 
传动 辟 (Cactuator arm) 一 端 ， 如 图 6-10a 所 示 。 通 过 沿 着 半径 轴 前 后 移动 这 个 传动 臂 ， 驱 动 
器 可 以 将 读 / 写 头 定位 在 盘面 上 的 任何 磁道 上 。 这 样 的 机 械 运 动 称 为 寻 道 (seek)。 一 旦 读 / 
写 头 定位 到 了 期 望 的 磁道 上 ,那么 当 磁 道上 的 每 个 位 通过 它 的 下 面 时 ， 读 / 写 头 可 以 感知 
到 这 个 位 的 值 ( 读 该 位 )， 也 可 以 修改 这 个 位 的 值 ( 写 该 位 )。 有 多 个 盘 片 的 磁盘 针对 每 个 盘 
面 都 有 一 个 独立 的 读 / 写 头 ， 如 图 6-10b 所 示 。 读 / 写 头 垂直 排列 ， 一 致 行动 。 在 任何 时 
刻 ， 所 有 的 读 / 写 头 都 位 于 同一 个 柱 面 上 。 








读 / 写 头 连 到 传动 臂 的 末 
端 ， 在 磁盘 表面 上 一 层 
水 薄 的 气垫 上 飞翔 


人 盘 表 面 以 固定 。“,/ 
的 旋转 速率 旋转 


:7 通过 在 半径 方向 上 





移动 ， 传 动 臂 可 以 
将 读 / 写 头 定 位 在 
任何 磁道 上 
a ) 一 个 盘 片 的 视图 b ) 多 个 盘 片 的 视图 


在 传动 臂 未 端的 读 / 写 头 在 磁盘 表面 高 度 大 约 0. 1 微米 处 的 一 层 薄 薄 的 气垫 上 飞翔 (就 是 字 
面 上 这 个 意思 )， 速 度 大 约 为 80 km/h。 这 可 以 比喻 成 将 一 座 摩天 大 楼 (442 米 高 ) 放 倒 ， 然 后 让 
它 在 距离 地 面 2.5 cm(1 英寸 ) 的 高 度 上 环绕 地 球 飞 行 ， 绕 地 球 一 天 只 需要 8 秒 钟 ! 在 这 样 小 的 
间 孙 里， 盘面 上 一 粒 微小 的 灰尘 都 像 一 块 巨 石 。 如 果 读 / 写 头 碰 到 了 这 样 的 一 块 巨石 ， 读 / 写 藉 
会 停 下 来 ， 撞 到 盘面 一 一 所 谓 的 读 / 写 头 冲撞 (head crash)。 为 此 ， 磁 盘 总 是 密封 包装 的 。 
磁盘 以 扇 区 大 小 的 块 来 读 写 数据 。 对 扇 区 的 访问 时 间 (access time) 有 三 个 主要 的 部 
分 ， 寻 道 时 间 (seek time)、 旋 转 时 间 (rotational latency) 和 传送 时 间 (transfer time) : 
e 寻 道 时 间 : 为 了 读 取 某 个 目标 扇 区 的 内 容 ， 传 动 臂 首 先 将 读 / 写 头 定 位 到 包含 目标 
扇 区 的 磁道 上 。 移 动 传动 臂 所 需 的 时 间 称 为 寻 道 时 间 。 寻 道 时 间 Twa 依赖 于 读 / 写 
头 以 前 的 位 置 和 传动 臂 在 盘面 上 移动 的 速度 。 现 代 驱 动 器 中 平均 寻 道 时 间 Tese 是 
通过 对 几 千 次 对 随机 扇 区 的 寻 道 求 平 均值 来 测量 的 ， 通 稍为 3 一 9ms。 一 次 寻 道 的 
最 大 时 间 Te 可 以 高 达 20ms。 
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e 旋转 时 间 : 一 且 读 / 写 头 定 位 到 了 期 望 的 磁道 ， 驱 动 历 等 待 目标 扇 区 的 第 一 个 位 旗 
转 到 读 / 写 头 下 。 这 个 步骤 的 性 能 依赖 于 当 谈 / 写 头 到 达 目 标 鹿 区 时 盘面 的 位 置 以 及 
磁盘 的 旋转 速度 。 在 最 坏 的 情况 下 ， 读 / 写 头 刚刚 错过 了 目标 鹿 区 ， 必 须 等 待 磁盘 
转 一 整 圈 。 因 此 ， 最 大 旋转 延迟 (以 秒 为 单位 ) 是 


T es ] 60s 
Inax rotatlion RPM lmin 


平均 旋转 时 间 Tyowaon 是 Tmor woumson 的 一 半 ，。 
e 传送 时 间 : 当 目 标记 区 的 第 一 个 位 位 于 读 / 写 头 下 时 ， 了 驱动 带 就 可 以 开始 读 或 者 写 
该 饥 区 的 内 容 了 。 一 个 书 区 的 传送 时 间 依 赖 于 旋转 速度 和 每 条 磁道 的 局 区 数目 。 因 
此 ， 我 们 可 以 粗略 地 估计 一 个 扇 区 以 秒 为 单位 的 平均 传送 时 间 如 下 
和 
RPM (平均 局 区 数 / 磁道 ) lmin 
我 们 可 以 估计 访问 一 个 磁盘 忆 区 内 容 的 平均 时 间 为 平均 寻 道 时 间 、 平 均 旋 转 延 迟 和 平均 传 
送 时 间 之 和 。 例 如 ， 考 虑 一 个 有 如 下 参数 的 磁盘 : 










旋转 速率 7200RPM 
到 i 9 ms 
每 条 磁道 的 平均 扇 区 数 400 


对 于 这 个 磁盘 ， 平 均 旋 转 延 氏 ( 以 ms 为 单位 ) 是 
ia ET DOs7300 RPNY X 1000 me)s zs 4 ms 

平均 传送 时 间 是 

Tv transter 二 60/7200 RPM X 1/400 局 区 / 磁道 X1000 ms/s 和 0.02 ms 

总 之 ， 整 个 估计 的 访问 时 间 是 
了 es = Toon woe 4 Tv roiliion i Tiven ronstir 一 和 王 5 十 生 面 5 十 0.02 ms = 13. 02 xs 

这 个 例子 说 明了 一 些 很 重要 的 问题 : 

e 访问 一 个 磁盘 扇 区 中 512 个 字 节 的 时 间 主 要 是 寻 道 时 间 和 旋转 延迟 。 访 问 记 区 中 的 
第 一 个 字 节 用 了 很 长 时 间 ， 但 是 访问 剩 下 的 字 节 几乎 不 用 时 间 。 

e@ 因为 寻 道 时 间 和 旋转 延迟 大 致 相 等 ， 所 以 将 寻 道 时 间 乘 2 是 估计 磁盘 访问 时 间 的 简 
单 而 合理 的 方法 。 

e 对 存储 在 SRAM 中 的 一 个 64 位 字 的 访问 时 间 大 约 是 4ns， 对 DRAM 的 访问 时 间 是 
60ns。 因 此 ， 从 内 存 中 读 一 个 512 个 字 节 扇 区 大 小 的 块 的 时 间 对 SRAM 来 说 大 约 是 
256ns， 对 DRAM 来 说 大 约 是 4000ns。 磁 盘 访 问 时 间 ， 大 约 10ms， 是 SRAM 的 大 
约 40 000 倍 ， 是 DRAM 的 大 约 2500 倍 。 

证 红 练习 题 6.3 估计 访问 下 面 这 个 磁盘 上 一 个 扁 区 的 访问 时 间 ( 以 ms 为 单位 ): 


旋转 速率 15 000RPM 
下 8 ms 


BYE Seek 


每 条 磁道 的 平均 扇 区 数 500 







4. 逻辑 磁盘 块 
正如 我 们 看 到 的 那样 ， 现 代 磁 盘 构造 复杂 ， 有 多 个 盘面 ， 这 些 盘面 上 有 不 同 的 记录 
区 。 为 了 对 操作 系统 隐藏 这 样 的 复杂 性 ， 现 代 磁 盘 将 它们 的 构造 呈现 为 一 个 简单 的 视图 ， 


第 6 草 疗 储 器 层次 结构 411 


一 个 B 个 局 区 大 小 的 逻辑 块 的 序列 ， 编 号 为 0，1，…，B 一 1。 磁 盘 封 装 中 有 一 个 小 的 硬 
件 / 固 件 设备 ， 称 为 磁盘 控制 器 ， 维 护 着 逻辑 块 号 和 实际 (物理 ) 磁 盘 扇 区 之 间 的 映射 关系 。 
当 操作 系统 想 要 执行 一 个 W/O 操作 时 ， 例 如 读 一 个 磁盘 扇 区 的 数据 到 主 存 ， 操 作 系 统 会 发 
送 一 个 命令 到 磁盘 控制 人 各 ， 让 它 读 某 个 逻辑 块 号 。 控 制 咽 上 的 固件 执行 一 个 快速 表 查 找 ， 将 一 
个 逻辑 块 号 翻译 成 一 个 (盘面 ， 磁 道 ， 扇 区 ) 的 三 元 组 ， 这 个 三 元 组 唯一 地 标识 了 对 应 的 物理 扇 
区 。 控 制作 上 的 硬件 会 解释 这 个 三 元 组 ， 将 读 / 写 头 移动 到 适当 的 柱 面 ， 等 待 局 区 移动 到 读 / 写 
头 下 ， 将 读 / 写 头 感 知 到 的 位 放 到 控制 右上 的 一 个 小 缓冲 区 中 ,然后 将 它们 复制 到 主 存 中 。 


EE 格式 化 的 磁盘 容量 

磁盘 控制 器 必须 对 磁盘 进行 格式 化 ， 然 后 才能 在 该 磁盘 上 存储 数据 。 格 式 化 包括 用 
标识 户 区 的 信息 填写 户 区 之 间 的 间隙 ， 标 识 出 表面 有 故障 的 柱 面 并 且 不 使 用 它们 ， 以 及 
在 每 个 区 中 预 留 出 一 组 柱 面 作为 备用 ， 如 果 区 中 一 个 或 多 个 柱 面 在 磁盘 使 用 过 程 中 坏 掉 
了 ， 就 可 以 使 用 这 些 备 用 的 柱 面 。 因 为 存在 着 这 些 备用 的 柱 面 ， 所 以 磁盘 制造 商 所 说 的 
格式 化 容量 比 最 大 容量 要 小 。 


记忆 练习 题 6.4 假设 1MB 的 文件 由 512 个 字 节 的 逻辑 块 组 成 存储 在 具有 如 下 特性 的 磁 
盘 驱 动 器 上 : 


旋转 速率 


[Js 
平均 遍 K 数 磁道 0 
表面 4 
对 于 下 面 的 情况 ,假设 程序 顺序 地 读 文 件 的 逻辑 块 ， 一 个 接 一 个 ， 将 读 / 写 头 定 
位 到 第 一 块 上 的 时 间 是 Ts seet 十 Tye roniion。 
A. 最 好 的 情况 : 给 定 逻 辑 块 到 磁盘 局 区 的 最 好 的 可 能 的 映射 ( 即 顺 序 的 )， 估 计 读 这 
个 文件 需要 的 最 优 时 间 ( 以 ms 为 单位 )。 
B. 随机 的 情况 :; 如 果 抉 是 随机 地 映射 到 磁 副 扇 区 的 ， 估 计 读 这 个 文件 需要 的 时 间 ( 以 
ms 为 单位 )。 
5. 连接 |/O 设备 
例如 图 形 卡 、 监 视 器 、 鼠 标 、 键 盘 和 磁盘 这 样 的 输入 /输出 (IO) 设 备 ， 都 是 通过 I/O 
总 线 ， 例 如 Intel 的 外 围 设 备 互 连 (Peripheral Component Interconnect，PCI) 总线 连 接 到 
CPU 和 主 存 的 。 系 统 总 线 和 内 存 总 线 是 与 CPU 相关 的 ， 与 它们 不 同 , 诸如 PCI 这 样 的 1/ 
OO 总 线 设计 成 与 底层 CPU 无 关 。 例 如 ，PC 和 Mac 都 可 以 使 用 PCI 总 线 。 图 6-11 展示 了 
一 个 典型 的 I/O 总 线 结 构 ， 它 连接 了 CPU、 主 存 和 I/O 设备 。 
虽然 IO 总 线 比 系统 总 线 和 内 存 总 线 慢 ， 但 是 它 可 以 容纳 种 类 繁多 的 第 三 方 1/O 设 
备 。 例 如 ， 在 图 6-11 中 ， 有 三 种 不 同类 型 的 设备 连接 到 总 线 。 
@ 通用 串 行 总 线 (Universal Serial Bus，USB) 控 制 器 是 一 个 连接 到 USB 总 线 的 设备 的 中 
转机 构 ，USB 总 线 是 一 个 广泛 使 用 的 标准 ， 连 接 各 种 外 围 /O 设备 ,包括 键盘 、 鼠 
标 、 调 制 解 调 问 、 数 码 相 机 、 游 戏 操纵 杆 、 打 印 机 、 外 部 磁盘 驱动 器 和 固态 硬盘 。 
USB 3. 0 总 线 的 最 大 带宽 为 625MB/s。USB 3. 1 总 线 的 最 大 带宽 为 1250MB/s。 
@ 图 形 卡 (或 适配器 ) 包 含 人 硬件 和 软件 逻辑 ， 它 们 负责 代表 CPU 在 显示 器 上 画像 素 。 
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@ 主机 总 线 适配器 将 一 个 或 多 个 磁盘 连接 到 1/O 总 线 ， 使 用 的 是 一 个 特别 的 主机 总 线 
接口 定义 的 通信 协议 。 两 个 最 常用 的 这 样 的 磁盘 接口 是 SCSI( 读 作 “scuzzy”) 和 
SATA( 读 作 “sat-uh”。SCSI 磁盘 通常 比 SATA 驱动 器 更 快 但 是 也 更 贵 。SCSI 主 
机 总 线 适 配器 (通常 称 为 SCSI 控制 器 ) 可 以 支持 多 个 磁盘 驱动 器 ， 与 SATA 适配器 
不 同 ， 它 只 能 支持 一 个 驱动 器 。 


CPU 





寄存 器 文件 


三 四 






LO 总 线 - - 


针对 诸如 网 络 适 
配 硕 这 样 的 其 他 
设备 的 扩展 插 权 


PPmm 一 一 一 一 一 人 一 一 一 一 一 一 


磁盘 





下 


图 6-11 总 线 结构 示例 ， 它 连接 CPU、 主 存 和 LO 设备 


其 他 的 设备 ， 例 如 网 络 适配器 ， 可 以 通过 将 适 配 带 插入 到 主板 上 空 的 扩展 槽 中 ， 从 而 
连接 到 IO 总 线 ， 这 些 捕 村 提供 了 到 总 线 的 直接 电路 连接 。 

6. 访问 磁盘 

虽然 详细 描述 WO 设备 是 如 何 工 作 的 以 及 如 何 对 它们 进行 编程 超出 了 我 们 讨论 的 范 
围 ， 但 是 我 们 可 以 给 你 一 个 概要 的 描述 。 例 如 ， 图 6-12 总 结 了 当 CPU 从 磁盘 读数 据 时 发 
生 的 步骤 。 


旁 注 I/O 总 线 设 计 进 展 

图 6-11 中 的 IO 总 线 是 一 个 简单 的 抽象 ， 使 得 我 们 可 以 具体 描述 但 又 不 必 和 某 个 系 
统 的 细节 联系 过 于 紧密 。 它 是 基于 外 围 设备 互联 (Peripheral Component Interconnect，PCI) 
总 线 的 ， 在 2010 年 前 使 用 非常 广泛 。PCI 模型 中 ， 系 统 中 所 有 的 设备 共享 总 线 ， 一 个 时 刻 
只 能 有 一 台 设 备 访问 这 些 线路 。 在 现代 系统 中 ， 共 享 的 PCI 总线 已 经 被 PCEe(PCI express) 
总 线 取代 ，PCIe 是 一 组 高 速 串 行 、 通 过 开关 连接 的 点 到 点 链 路 ， 类 似 于 你 将 在 第 11 章 中 
学 习 到 的 开关 以 太 网 。PCle 总 线 ， 最 大 吞吐 率 为 16GB/s， 比 PCI 总 线 快 一 个 数量 级 ，PCI 
总 线 的 最 大 吞吐 率 为 533MB/s。 除 了 测量 出 的 1/O 〇 性能， 不同 总 线 设 计 之 间 的 区 别 对 应 用 
程序 来 说 是 不 可 见 的 ， 所 以 在 本 书 中 ， 我 们 只 使 用 简单 的 共享 总 线 抽象 。 
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CPU 使 用 一 种 称 为 内 存 映 射 II/OCmemory-mapped 1/O) 的 技术 来 向 1/O 设备 发 射 命令 
(图 6-12a)。 在 使 用 内 存 映 射 1/O 的 系统 中 ， 地 址 空间 中 有 一 块 地 址 是 为 与 I/O 设备 通信 
保留 的 。 每 个 这 样 的 地 址 称 为 一 个 1/O 端口 (I/O port) 。 当 一 个 设备 连接 到 总 线 时 ， 它 与 
一 个 或 多 个 端口 相关 联 ( 或 它 被 映射 到 一 个 或 多 个 端口 ) 。 

CPU 芯片 
寄存 器 文件 






主 存 


怪人 制 益 适 配 天 


鼠标 ”键盘 ”监视 器 






a) CPU 通过 将 命令 、 逮 辑 块 号 和 目的 内 存 地 址 写 到 与 磁盘 相关 联 的 内 存 映射 地 址 ， 发 起 一 个 磁盘 读 


CPU 芯片 


鼠标 ”键盘 ”监视 带 


鼠标 “键盘 ”监视 肯 


b ) 磁盘 控制 器 读 扇 区 ， 并 执行 到 主 存 的 DMA 传 送 c ) 当 DMA 传 送 完成 时 ， 磁 盘 控制 器 用 中 断 的 方式 通知 CPU 
图 6-12 读 一 个 磁盘 扇 区 


来 看 一 个 简单 的 例子 ， 假 设 磁盘 控制 器 映射 到 端口 0xa0。 随 后 ，CPU 可 能 通过 执行 三 
个 对 地 址 0xa0 的 存储 指令 ， 发 起 磁盘 读 : 第 一 条 指令 是 发 送 一 个 命令 字 ， 告 诉 磁盘 发 起 一 
个 读 ， 同 时 还 发 送 了 其 他 的 参数 ， 例 如 当 读 完成 时 ， 是 否 中 断 CPU( 我 们 会 在 8. 1 节 中 讨论 中 
黄 )。 第 二 条 指令 指明 应 该 读 的 逻辑 块 号 。 第 三 条 指令 指明 应 该 存储 磁盘 扇 区 内 容 的 主 存 地 址 。 

当 CPU 发 出 了 请 求 之 后 ， 在 磁盘 执行 读 的 时 候 ， 它 通常 会 做 些 其 他 的 工作 。 回 想 一 
下 ， 一 个 1GHz 的 处 理 右 时钟 周 期 为 1ns， 在 用 来 读 磁 盘 的 16ms 时 间 里 ， 它 潜在 地 可 能 
执行 1600 万 条 指令 。 在 传输 进行 时 ， 只 是 简单 地 等 待 ， 什 么 都 不 做 ， 是 一 种 极 大 的 浪费 。 

在 磁盘 控制 器 收 到 来 自 CPU 的 读 命令 之 后 ， 它 将 逻辑 块 号 翻译 成 一 个 扇 区 地 址 ， 读 
该 扇 区 的 内 容 ， 然 后 将 这 些 内 容 直 接 传送 到 主 存 ， 不 需要 CPU 的 干涉 (图 6-12b) 。 设 备 可 
以 自己 执行 读 或 者 写 总 线 事务 而 不 需要 CPU 干涉 的 过 程 ， 称 为 直接 内 存 访 问 (Direct 


Memory Access，DMA) 。 这 种 数据 传送 称 为 DMA 传送 (DMA transfer) 。 

在 DMA 传送 完成 ， 和 磁盘 导 区 的 内 容 被 安全 地 存储 在 主 存 中 以 后 ， 磁 盘 控 制 器 通过 给 
CPU 发 送 一 个 中 断 信 号 来 通知 CPU( 图 6-12c) 。 基 本 思想 是 中 断 会 发 信号 到 CPU 芯片 的 
一 个 外 部 引 脚 上 。 这 会 导致 CPU 暂停 它 当 前 正在 做 的 工作 ， 跳 转 到 一 个 操作 系统 例 程 。 
这 个 程序 会 记录 下 1/O 〇 已 经 完成 ， 然 后 将 控制 返回 到 CPU 被 中 断 的 地 方 。 


ES 商用 磁盘 的 特性 

磁盘 制造 商 在 他 们 的 网 页 上 公布 了 许多 高 级 技术 信息 。 例 如， 项 捷 (Seagate) 公 司 
的 网 站 包含 关于 他 们 最 受 欢 迎 的 驱动 器 之 一 Barracuda 7400 的 如 下 信息 。( 远 不 止 如 
此 1)(Seagate. com) 


表面 直径 旋转 速率 7200 RPM 
格式 化 的 容量 平均 旋转 时 间 4. 16ms 
盘 片 数 平均 寻 道 时 间 8. 5ms 


表面 数 道 间 寻 道 时 间 1; Oms 
逻辑 块 5860 533 168 平均 传输 时 间 156MB/s 
逻辑 块 大 小 512 字 节 最 大 持续 传输 速率 210MB/s 





6. 1.3 固态 硬盘 


固态 硬盘 (Solid State Disk，SSD) 是 一 种 基于 闪存 的 存储 技术 (参见 6. 1. 1 市 )， 在 茶 
些 情况 下 是 传统 旋转 磁盘 的 极 有 了 吸引 力 的 替代 产品 。 图 6-13 展示 了 它 的 基本 思想 。SSD 
封装 插 到 1/O 总 线 上 标准 硬盘 插 模 (通常 是 USB 或 SATA) 中 , 行为 就 和 其 他 硬盘 一 样 ， 
处 理 来 自 CPU 的 读 写 逻辑 磁盘 块 的 请 求 。 一 个 SSD 封装 由 一 个 或 多 个 闪存 避 片 和 闪存 翻 
译 层 (flash translation layer) 组 成 ， 闪 存世 片 蔡 代 传 统 旋转 磁盘 中 的 机 械 驱 动 器 ， 而 闪存 
翻译 层 是 一 个 硬件 /固件 设备 ， 扮 演 与 磁盘 控制 器 相同 的 角色 ， 将 对 逻辑 块 的 请 求 翻 译 成 
对 底层 物理 设备 的 访问 。 
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“| 读 写 逻辑 磁盘 块 
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固态 硬盘 (SSD ) 





图 6-13 固态 硬盘 (SSD) 


图 6-14 展示 了 典型 SSD 的 性 能 特性 。 注 意 ， 读 SSD 比 写 要 快 。 随 机 读 和 写 的 性 能 差 
别 是 由 底层 闪存 基本 属性 决定 的 。 如 图 6-13 所 示 ， 一 个 闪存 由 B 个 块 的 序列 组 成 ， 每 个 
块 由 PP 页 组 成 。 通 常 ， 页 的 大 小 是 512 字 节 一 4KB， 块 是 由 32 一 128 页 组 成 的 ， 块 的 大 小 
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为 16KB~512KB。 数 据 是 以 页 为 单位 读 写 的 。 只 有 在 一 页 所 属 的 块 整个 被 擦 除 之 后 ， 才 
能 写 这 一 页 (通常 是 指 该 块 中 的 所 有 位 都 被 设置 为 1)。 不 过 ,一 旦 一 个 块 被 擦 除了 ， 块 中 
每 一 个 页 都 可 以 不 需要 再 进行 擦 除 就 写 一 次 。 在 大 约 进行 100 000 次 重复 写 之 后 ， 块 就 会 
麻 损 坏 。 一 且 一 个 块 磨损 坏 之 后 ， 就 不 能 再 使 用 了 。 


TWOS 
TEST 


















衬 
平均 随机 写 访问 时 间 
图 6-14 一 个 商业 固态 硬盘 的 性 能 特性 

资料 来 源 : Intel SSD 730 产品 规格 书 [53]。IOPS 是 每 秒 1/O 〇 操作 数 。 吞 吐 量 数量 基于 4KB 块 的 读 写 

随机 写 很 慢 ， 有 两 个 原因 。 首 先 ， 擦 除 块 需要 相对 较 长 的 时 间 ，1lms 级 的 ， 比 访问 页 
所 需 时 间 要 高 一 个 数量 级 。 其 次 ， 如 果 写 操作 试图 修改 一 个 包含 已 经 有 数据 (也 就 是 不 是 
全 为 1) 的 页 户 ， 那 么 这 个 块 中 所 有 珊 有 用 数据 的 页 都 必须 被 复制 到 一 个 新 ( 控 除 过 的 ) 块 ， 
然后 才能 进行 对 页 p 的 写 。 制 造 商 已 经 在 闪存 翻译 层 中 实现 了 复杂 的 逻辑 ， 试 图 抵消 擦 写 
块 的 高 昂 代 价 ， 最 小 化 内 部 写 的 次 数 ， 但 是 随机 写 的 性 能 不 太 可 能 和 读 一 样 好 。 

比 起 旋转 磁盘 ，SSD 有 很 多 优点 。 它 们 由 半导体 存储 器 构成 ， 没 有 移动 的 部 件 ， 因 而 
随机 访问 时 间 比 旋转 磁盘 要 快 ， 能 耗 更 低 ， 同 时 也 更 结实 。 不 过 ， 也 有 一 些 缺 点 。 首 先 ， 
因为 反复 写 之 后 ， 闪 存 块 会 磨损 ， 所 以 SSD 也 容易 磨损 。 闪 存 翻 译 层 中 的 平均 磨损 (wear 
leveling) 逻 辑 试 图 通过 将 探 除 平均 分 布 在 所 有 的 块 上 来 最 大 化 每 个 块 的 寿命 。 实 际 上 ， 平 
均 磨 损 欣 辑 处 理 得 非常 好 ， 要 很 多 年 SSD 才 会 磨损 坏 ( 参 考 练习 题 6.5)。 其 次 ，SSD 每 字 
节 比 旋转 磁盘 贯 大 约 30 倍 ， 因 此 和 常用 的 存储 容量 比 旋 转 磁 盘 小 100 倍 。 不 过 ， 随 着 SSD 
变 得 越 来 越 受 欢迎 ， 它 的 价格 下 降 得 非常 快 ， 而 两 者 的 价格 差 也 在 减少 。 

在 便携 音乐 设备 中 ，SSD 已 经 完全 的 取代 了 旋转 磁盘 ， 在 笔记 本 电脑 中 也 越 来 越 多 地 
作为 硬盘 的 奉 代 品 ， 甚 至 在 台式 机 和 服务 器 中 也 开始 出 现 了 。 虽 然 旋 转 磁 盘 还 会 继续 存 
在 ， 但 是 显然 ，SSD 是 一 项 重要 的 蔡 代 选择 。 

度 S 练习 题 6.5 正如 我 们 已 经 看 到 的 ，SSD 的 一 个 潜在 的 缺陷 是 底层 闪存 会 磨损 。 例 

如 ， 图 6-14 所 示 的 SSD，Intel 保证 能 够 经 得 起 128PB(128X10” 字 节 ) 的 写 。 给 定 这 
样 的 假设 ， 根 据 下 面 的 工作 负载 ， 估 计 这 款 SSD 的 寿命 (以 年 为 单位 ): 
A. 顺序 写 的 最 糟 情况 : 以 470MB/s( 该 设备 的 平均 顺序 写 吞 叶 量 ) 的 速度 持续 地 写 SSD。 
B. 随机 写 的 最 糟 情况 : 以 303MB/s( 该 设备 的 平均 随机 写 吞 吐 量 ) 的 速度 持续 地 写 SSD。 
C. 平均 情况 : 以 20GB/ 天 ( 菜 些 计算 机 制造 商 在 他 们 的 移动 计算 机 工作 负载 模拟 测试 

中 假设 的 平均 每 天 写 速 率 ) 的 速度 写 SSD。 


6. 1.4 存储 技术 趋势 


从 我 们 对 存储 技术 的 讨论 中 ， 可 以 总 结 出 几 个 很 重要 的 思想 : 

不 同 的 存储 技术 有 不 同 的 价格 和 性 能 折 中 。SRAM 比 DRAM 快 一 点 ， 而 DRAM 比 
磁盘 要 快 很 多 。 男 一 方面 ， 快速 存储 总 是 比 慢 速 存储 要 贵 的 。SRAM 每 字 节 的 造价 比 
DRAM 高 ，DRAM 的 造价 又 比 磁 盘 高 得 多 。SSD 位 于 DRAM 和 旋转 磁盘 之 间 。 

不 同 存储 技术 的 价格 和 性 能 属性 以 截然 不 同 的 速率 变化 着 。 图 6-15 总 结 了 从 1985 年 





416 第 一 部 分 程序 结构 和 执行 


以 来 的 存储 技术 的 价格 和 性 能 属性 ， 那 时 第 一 台 PC 刚刚 发 明 不 久 。 这 些 数字 是 从 以 前 的 
商业 杂志 中 和 Web 上 挑选 出 来 的 。 虽 然 它们 是 从 非 正 式 的 调查 中 得 到 的 ， 但 是 这 些 数字 
还 是 能 揭示 出 一 些 有 趣 的 趋势 。 

自从 1985 年 以 来 ，SRAM 技术 的 成 本 和 性 能 基本 上 是 以 相同 的 速度 改善 的 。 访 问 时 
间 和 每 兆 字 节 成 本 下 降 了 大 约 100 倍 ( 图 6-15a) 。 不 过 ，DRAM 和 磁盘 的 变化 趋势 更 大 ， 
而 且 更 不 一 致 。DRAM 每 兆 字 节 成 本 下 降 了 44 000 倍 ( 超 过 了 四 个 数量 级 1) ， 而 DRAM 
的 访问 时 间 只 下 降 了 大 约 10 倍 ( 图 6-15b) 。 和 磁盘 技术 有 和 DRAM 相同 的 趋势 ， 甚 至 变化 
更 大 。 从 1985 年 以 来 ， 磁 盘存 储 的 每 兆 字 节 成 本 暴跌 了 3 000 000 倍 ( 超 过 了 六 个 数量 
级 !) ， 但 是 访问 时 间 提 高 得 很 慢 ， 只 有 25 倍 左右 (图 6-15c) 。 这 些 惊人 的 长 期 趋势 突出 了 
内 存 和 磁盘 技术 的 一 个 基本 事实 : 增加 密度 (从 而 降低 成 本 ) 比 降低 访问 时 间 容 易 得 多 。 

DRAM 和 磁盘 的 性 能 滞后 于 CPU 的 性 能 。 正 如 我 们 在 图 6-15d 中 看 到 的 那样 ， 从 
1985 年 到 2010 年 ，CPU 周期 时 间 提 高 了 500 倍 。 如 果 我 们 看 有 效 周期 时 间 (effective cy- 
我 们 定义 为 一 个 单独 的 CPU( 处 理 器 ) 的 周期 时 间 除 以 它 的 处 理 器 核 数 一 一 那 





cle time) 


么 从 1985 年 到 2010 年 的 提高 还 要 大 一 些 ， 为 2000 倍 。CPU 性 能 曲线 在 2003 年 附近 的 突 
然 变 化 反映 的 是 多 核 处 理 器 的 出 现 ( 参 见 6. 2 节 的 旁 注 ) ， 在 这 个 分 割 点 之 后 ， 单 个 核 的 周 
期 时 间 实 际 上 增加 了 一 点 点 ， 然 后 又 开始 下 降 ， 不 过 比 以 前 的 速度 要 慢 一 些 。 
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c) 旋转 磁盘 趋势 
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d) CPU 趋势 


图 6-15 存储 和 处 理 器 技术 发 展 趋势 。2010 年 的 Core i7 使 用 的 是 Nehalem 处 理 器 ， 
2015 年 的 Core 17 使 用 的 是 Haswell 核 
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注意 ， 虽 然 SRAM 的 性 能 滞后 于 CPU 的 性 能 ， 但 还 是 在 保持 增长 。 不 过 ，DRAM 
和 磁盘 性 能 与 CPU 性 能 之 间 的 差距 实际 上 是 在 加 大 的 。 直 到 2003 年 左右 多 核 处 理 器 的 出 
现 ， 这 个 性 能 差距 都 是 延迟 的 函数 ，DRAM 和 磁盘 的 访问 时 间 比 单个 处 理 器 的 周期 时 间 
提高 得 更 慢 。 不 过 ， 随 看 多 核 的 出 现 ， 这 个 性 能 越 来 越 成 为 了 否 吐 量 的 函数 ， 多 个 处 理 禹 

核 并 发 地 向 DRAM 和 磁盘 发 请 求 。 
图 6-16 清楚 地 表明 了 各 种 趋势 ， 以 半 对 数 为 比例 (semirlog scale)， 画 出 了 图 6-15 中 

的 访问 时 间 和 周期 时 间 。 
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图 6-16 磁盘 、DRAM 和 CPU 速度 之 间 逐 渐 增 大 的 差距 


正如 我 们 将 在 6. 4 节 中 看 到 的 那样 ， 现 代 计 算 机 频繁 地 使 用 基于 SRAM 的 高 速 缓存 ， 
试图 弥补 处 理 器 -内 存 之 间 的 差距 。 这 种 方法 行 之 有 效 是 因为 应 用 程序 的 一 个 称 为 局 部 性 
(locality) 的 基本 属性 ， 接 下 来 我 们 就 讨论 这 个 问题 。 
记 缠 练习 题 6.6 使 用 图 6-15c 中 从 2005 年 到 2015 年 的 数据 ， 估 计 到 哪 一 年 你 可 以 以 中 500 
的 价格 买 到 一 个 1PB(10” 字 节 )) 的 旋转 磁 肯 。 假 设 美元 价值 不 变 ( 没 有 通货 膨胀 )。 


旁 注 | 当 周 期 时 间 保 持 不 变 : 多 核 处 理 器 的 到 来 

计算 机 历史 是 由 一 些 在 工业 界 和 整个 世界 产生 深远 变化 的 单个 事件 标记 出 来 的 。 有 趣 
的 是 ， 这 些 变 化 点 趋向 于 每 十 年 发 生 一 次 20 世纪 50 年 代 Fortran 的 提出 ，20 世纪 60 年 
代 早 期 BM 360 的 出 现 ，20 世纪 70 年 代 早 期 Internet 的 明光 (当时 称 为 APRANETI)，20 
世纪 80 年 代 早 期 [BM PC 的 出 现 ， 以 及 20 世纪 90 年代 万 维 网 (World Wide Web) 的 出 现 。 

最 近 这 样 的 事件 出 现在 21 世纪 初 ， 当 计算 机 制造 商 迎 头 撞 上 了 所 谓 的 “能 量 墙 L(power 
wall)”， 发 现 他 们 无 法 再 像 以 前 一 样 迅速 地 增加 CPU 的 时 钟 频率 了 ， 因 为 如 果 那 样 芯片 的 功 耗 
会 太 大 。 解 决 方法 是 用 多 个 小 处 理 器 核 (core) 取 代 单 个 大 处 理 器 ， 从 而 提高 性 能 ， 每 个 完整 的 处 
理 器 能 够 独立 地 、 与 其 他 核 并 行 地 执行 程序 。 这 种 多 核 (multi-core) 方 法 部 分 有 效 ， 因 为 一 个 处 
理 器 的 功 耗 正比 于 P= 二 fCu， 这 里 f 是 时 钟 频率 ，C 是 电容 ， 而 Uv 是 电压 。 电 容 C 大 致 上 正比 
于 面积 ， 所 以 只 要 所 有 核 的 总 面积 不 变 ， 多 核 造成 的 能 耗 就 能 保持 不 变 。 只 要 特征 尺寸 继续 按 
照 摩 尔 定律 指数 性 地 下 降 ， 每 个 处 理 器 中 的 核 数 ， 以 及 每 个 处 理 器 的 有 效 性 能 ， 都 会 继续 增加 。 

从 这 个 时 间 点 以 后 ， 计 算 机 越 来 越 快 ， 不 是 因为 时 钟 频率 的 增加 ， 而 是 因为 每 个 处 理 器 
中 核 数 的 增加 ， 也 因为 体系 结构 上 的 创新 提高 了 在 这 些 核 上 运行 程序 的 效率 。 我 们 可 以 从 图 
6-16 中 很 清楚 地 看 到 这 个 趋势 。CPU 周期 时 间 在 2003 年 达到 最 低 点 ， 然 后 实际 上 是 又 开始 上 


升 的 ， 然后 变 得 平稳 ， 之 后 又 开始 以 比 以 前 慢 一 些 的 速率 下 降 。 不 过 ， 由 于 多 核 处 理 器 的 出 
现 (2004 年 出 现 双 核 ，2007 年 出 现 四 核 )， 有 效 周 期 时 间 以 接近 于 以 前 的 速率 持续 下 降 。 


6.2 局 部 性 


一 个 编写 良好 的 计算 机 程序 常常 具有 恨 好 的 局 部 性 (locality)。 也 就 是 ， 它 们 倾 癌 于 引 
用 邻近 于 其 他 最 近 引 用 过 的 数据 项 的 数据 项 ， 或 者 最 近 引 用 过 的 数据 项 本 号 。 这 种 倾 问 
性 ， 被 称 为 局 部 性 原理 (principle of locality)， 是 一 个 持久 的 概念 ， 对 便 件 和 软件 系统 的 设 
计 和 性 能 都 有 着 极 大 的 影 啊 。 

局 部 性 通常 有 两 种 不 同 的 形式 : 时 间 局 部 性 (temporal locality) 和 和 空间 局 部 性 (spatial 
locality)。 在 一 个 具有 良好 时 间 局 部 性 的 程序 中 ,被 引用 过 一 次 的 内 存 位 置 很 可 能 在 不 还 
的 将 来 再 被 多 次 引用 。 在 一 个 具有 良好 空间 局 部 性 的 程序 中 ， 如 果 一 个 内 存 位 置 被 引用 了 
一 次 ， 那 么 程序 很 可 能 在 不 远 的 将 来 引用 附近 的 一 个 内 存 位 置 。 

程序 员 应 该 理解 局 部 性 原理 ， 因 为 一 般 而 言 ， 有 良好 局 部 性 的 程序 比 局 部 性 差 的 程序 
运行 得 更 快 。 现 代 计 算 机 系统 的 各 个 层次 ， 从 硬件 到 操作 系统 、 再 到 应 用 程序 ， 它 们 的 设 
计 都 利用 了 局 部 性 。 在 硬件 层 ， 局 部 性 原理 允许 计算 机 设计 者 通过 引入 称 为 高 速 缓存 存储 
器 的 小 而 快速 的 存储 器 来 保存 最 近 被 引用 的 指令 和 数据 项 ， 从 而 提高 对 主 存 的 访问 速度 。 
在 操作 系统 级 ， 局 部 性 原理 允许 系统 使 用 主 存 作为 虚拟 地 址 空间 最 近 被 引用 块 的 高 速 绥 
存 。 类 似 地 ， 操 作 系 统 用 主 存 来 缓存 磁盘 文件 系统 中 最 近 被 使 用 的 磁盘 块 。 局 部 性 原理 在 
应 用 程序 的 设计 中 也 扮演 着 重要 的 角色 。 例 如 ，Web 浏览 需 将 最 近 被 引用 的 文档 放 在 本 地 
磁盘 上 ， 利 用 的 就 是 时 间 局 部 性 。 大 容量 的 Web 服务 器 将 最 近 被 请 求 的 文档 放 在 前 端 磁 
盘 高 速 绥 存 中 ， 这 些 缓存 能 满足 对 这 些 文档 的 请 求 ， 而 不 需要 服务 带 的 任何 干预 。 


6.2. 1 对 程序 数据 引用 的 局 部 性 


考虑 图 6-17a 中 的 简单 函数 ， 它 对 一 个 癌 量 的 元 素 求 和 。 这 个 程序 有 民 好 的 局 部 性 
吗 ? 要 回答 这 个 问题 ， 我 们 来 看 看 每 个 变量 的 引用 模式 。 在 这 个 例子 中 ， 变 量 sum 在 每 次 
循环 迭代 中 被 引用 一 次 ， 因 此 ， 对 于 sum 来 说 ， 有 好 的 时 间 局 部 性 。 男 一 方面 ， 因 为 sum 
是 标量 ， 对 于 sum 来 说 ， 没 有 空间 局 部 性 。 

int sumvec(int v[N]) 


{ 


int i, sum = 0; 


for (i = 0; i < N;: i++) 
sum += v[i]; 
return sum; 


} 访问 顺序 


内 容 





a ) 一 个 具有 良好 局 部 性 的 程序 b ) 向 量 v 的 引用 模式 (N=8) 
图 6-17 注意 如 何 按照 向 量 元 素 存 储 在 内 存 中 的 顺序 来 访问 它们 


正如 我 们 在 图 6-17b 中 看 到 的 ， 癌 量 v 的 元 素 是 被 顺序 谈 取 的 ， 一 个 接 一 个 ， 按 照 它 
们 存储 在 内 存 中 的 顺序 (为 了 方便 ， 我 们 假设 数组 是 从 地 址 0 开始 的 )。 因 此 ， 对 于 变量 v， 
图 数 有 很 好 的 空间 局 部 性 ， 但 是 时 间 局 部 性 很 差 ， 因 为 每 个 向 量 元 素 只 被 访问 一 次 。 因 为 
对 于 循环 体 中 的 每 个 变量 ， 这 个 函数 要 么 有 好 的 空间 局 部 性 ， 要 么 有 好 的 时 间 局 部 性 ， 所 
以 我 们 可 以 断定 sumvec 图 数 有 恨 好 的 局 部 性 。 
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我 们 说 像 sumvec 这 样 顺 序 访问 一 个 向 量 每 个 元 素 的 函数 ， 具 有 步 长 为 1 的 引用 模式 
(stride-l reference pattern)( 相 对 于 元 素 的 大 小 )。 有 时 我 们 称 步 长 为 1 的 引用 模式 为 顺序 
引用 模式 (sequential reference pattern) 。 一 个 连续 向 量 中 ， 每 隔 R& 个 元 素 进 行 访问 ， 就 称 
为 步 长 为 的 引用 模式 (stride-k reference pattern)。 步 长 为 1 的 引用 模式 是 程序 中 空间 局 
部 性 常见 和 重要 的 来 源 。 一 般 而 言 ， 随 着 步 长 的 增加 ， 空 间 局 部 性 下 降 。 

对 于 引用 多 维 数组 的 程序 来 说 ， 步 长 也 是 一 个 很 重要 的 问题 。 例 如 ， 考 虑 图 6-18a 中 的 
困 数 sumarrayrows， 它 对 一 个 二 维 数 组 的 元 素 求 和 。 双 重 艇 套 循 环 按 照 行 优先 顺序 (row- 
major order) 读 数组 的 元 素 。 也 就 是 ， 内 层 循环 读 第 一 行 的 元 素 ， 然 后 读 第 二 行 ， 依 此 类 推 。 
函数 sumarrayrows 具有 良好 的 空间 局 部 性 ， 因 为 它 按照 数组 被 存储 的 行 优先 顺序 来 访问 这 个 
数组 (图 5-18b) 。 其 结果 是 得 到 一 个 很 好 的 步 长 为 1 的 引用 模式 ， 具 有 良好 的 空间 局 部 性 。 


int sumarrayrows(int al[lM][N]) 
+ 


in% 1, J], Sun = 0; 


for (i = 0; i < M; i++) 


for (j = 0; j < N; j++) 





sum += al[i] [jj]; ee 
return sum; 内 容 
访问 顺序 
a ) 男 一 个 具有 良好 局 部 性 的 程序 b ) 数组 a 的 引用 模式 (M=2, N=3) 
和 6-18 有 和 良好 的 空间 局 部 性 ， 是 因为 数组 是 按照 与 它 存储 在 内 存 中 一 样 的 行 优 先 顺 序 来 被 访问 的 


一 些 看 上 去 很 小 的 对 程序 的 改动 能 够 对 它 的 局 部 性 有 很 大 的 影响 。 人 例如， 图 6-19a 中 
的 函数 sumarraycols 计算 的 结果 和 图 6-18a 中 函数 sumarrayrows 的 一 样 。 唯 一 的 区 别 
是 我 们 交换 了 i 和 ; 的 循环 。 这 样 交 换 循 环 对 它 的 局 部 性 有 何 影 响 ?” 函数 sumarraycols 
的 空间 局 部 性 很 差 ， 因 为 它 按照 列 顺序 来 扫描 数组 ， 而 不 是 按照 行 顺序 。 因 为 C 数组 在 内 
存 中 是 按照 行 顺序 来 存放 的 ， 结 果 就 得 到 步 长 为 N 的 引用 模式 ， 如 图 6-19b 所 示 。 
int sumarraycols(int aLM] LN] ) 
{ 


int TI jj; sun = 0; 


for (j = 0; j < Ns j++) 


for (i = 0; i < M; i++) 

sum += al[lil][j]; 

return Sum ; 内 容 
访问 顺序 


地 址 





a ) 一 个 空间 局 部 性 很 差 的 程序 b ) 数组 a 的 引用 模式 (M=2, N=3) 
加 6-19 ”函数 的 空间 局 部 性 很 差 . 这 是 因为 它 使 用 步 长 为 N 的 引用 模式 来 扫描 


6.2.2 取 指 令 的 局 部 性 


因为 程序 指令 是 存放 在 内 存 中 的 ，CPU 必须 取出 ( 读 出 ) 这 些 指令 ， 所 以 我 们 也 能 够 
评价 一 个 程序 关于 取 指 令 的 局 部 性 。 例 如 ， 图 6-17 中 for 循环 体 里 的 指令 是 按照 连续 的 
内 存 顺 序 执行 的 ， 因 此 循环 有 良好 的 空间 局 部 性 。 因为 循环 你 会 被 执行 多 次 ， 所 以 它 也 有 
很 好 的 时 间 局 部 性 。 


代码 区 别 于 程序 数据 的 一 个 重要 属性 是 在 运行 时 它 是 不 能 被 修改 的 。 当 程序 正在 执行 
时 ，CPU 只 从 内 存 中 读 出 它 的 指令 。CPU 很 少 会 重 写 或 修改 这 些 指令 


6.2.3 局 部 性 小 结 


在 这 一 节 中 ， 我 们 介绍 了 局 部 性 的 基本 思想 ， 还 给 出 了 量化 评价 程序 中 局 部 性 的 一 些 
e 重复 引用 相同 变量 的 程序 有 良好 的 时 间 局 部 性 。 
e 对 于 具有 步 长 为 & 的 引用 模式 的 程序 ， 步 长 越 小 ,空间 局 部 性 越 好 。 有 具有 步 长 为 / 
的 引用 模式 的 程序 有 很 好 的 空间 局 部 性 。 在 内 存 中 以 大 步 长 跳 来 跳 去 的 程序 空间 局 
部 性 会 很 差 。 
e@ 对 于 取 指 令 来 说 ,循环 有 好 的 时 间 和 空间 局 部 性 。 循 环 体 越 小 ， 循 环 迭 代 次 数 越 
多 ， 局 部 性 越 好 。 
在 本 章 后 面 ， 在 我 们 学 习 了 高 速 缓存 存储 器 以 及 它们 是 如 何 工 作 的 之 后 ， 我 们 会 介绍 
如 何 用 高 速 缓存 命中 率 和 不 命中 率 来 量化 局 部 性 的 概念 。 你 还 会 弄 明日 为 什么 有 恨 好 局 部 
性 的 程序 通常 比 局 部 性 差 的 程序 运行 得 更 快 。 尺 管 如 此 ， 了 解 如 何 看 一 眼 源 代码 就 能 获得 
TE ODO RO op A IL SA OS 
去 练习 题 6. 7 改变 下 面 函 数 中 循环 的 顺序 ， 使 得 它 以 步 长 为 1 的 引用 模式 扫描 三 维 数 组 a: 





1 int sumarray3d(int a[N] [N] LN] ) 

和 站 

3 int 13, Jj, Kk; sum = 0; 

4 

5 for (i = 0; i < N; i++) 并 

6 for Cj = 0; j < 3 j++) { 
7 for (k = 0; k < N; k++) { 
8 sum += a[k] [i] [j]; 
9 } 

10 上 

11 } 

12 return sum; 

13 3} 





臣 对 | 练习 题 6.8 图 6-20 中 的 三 个 函数 ， 以 不 同 的 空间 局 部 性 程度 ， 执 行 相同 的 操作 。 请 
对 这 些 函 数 就 空间 局 部 性 进行 排序 。 解 释 你 是 如 何 得 到 排序 结果 的 。 


void clearl(point *p, int n) 
{ 
TG 
#define N 1000 
for (i = '0; i < n; i++) 4{ 
typedef struct 1{ 
int vel[3]: 
int aceL3] 
} point; 


for (j = 0; j < 3; j++) 
p[li] .vel[j] = 0; 

for 《j = O08 可 < BS: 于 
pli] .acc[j] = 0; 





1 
2 
3 
4 
5 
6 
7 
8 





point p[N]; 
a) structs 数 组 b) cleazr1 函 数 
图 6-20 练习 题 6. 8 的 代码 示例 


void clear2(point *p, int n) 


int i, j; 


for (4 = 0 14 < RW: 4++4) 区 
fox (ij 三 人 1 < dy Tet) A 


pli] .vel[j] = 0; 
pli] .acc[j] = 0; 


c) clear2 阴 数 


图 6-20 


6.3 存储 希 层 次 结构 
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void clear3(point *p, int n) 
{ 


1 了 


for 《人 = 0O; J < 3 jt) 攻 
for (4 = 0; EE < ns Ls4) 
p[li] .vel[j] = 0; 
for (i = 0; i < n; i++) 
pli] .acc[j] = 0; 


d) clear3 上 因数 


6.1 节 和 6.2 节 摘 述 了 存储 技术 和 计算 机 软件 的 一 些 基 本 的 和 持久 的 属性 : 

e@ 存储 技术 : 不 同 存储 技术 的 访问 时 间 差 异 很 大 。 速 度 较 快 的 技术 每 字 节 的 成 本 要 比 

速度 较 慢 的 技术 高 ， 而 且 容 量 较 小 。CPU 和 主 存 之 间 的 速度 差距 在 增 大 。 

@ 计算 机 软件 : 一 个 编写 良好 的 程序 倾向 于 展示 出 良好 的 局 部 性 。 
计算 中 一 个 喜人 的 巧合 是 ， 硬 件 和 软件 的 这 些 基本 属性 互相 补充 得 很 完美 。 它 们 这 种 相互 
补充 的 性 质 使 人 想到 一 种 组 织 存储 器 系统 的 方法 ， 称 为 存储 器 层次 结构 (memory 
hierarchy) ， 所 有 的 现代 计算 机 系统 中 都 使 用 了 这 种 方法 。 图 6-21 展示 了 一 个 典型 的 存储 
器 层次 结构 。 一 般 而 言 ， 从 高 层 往 底 层 走 ， 存 储 设备 变 得 更 慢 、 更 便宜 和 更 大 。 在 最 高 层 
(L0) ， 是 少量 快速 的 CPU 寄存 器 ，CPU 可 以 在 一 个 时 钟 周 期 内 访问 它们 。 接 下 来 是 一 个 



















L0: 
更 小 寄存 需 
更 快 和 L1， es 
成 本 更 高 的 有 
5 Le: 、 
存储 设备 高 速 缓存 






(SRAM ) 


L3 
高 速 缓存 
(SRAM ) 





更 大 

更 慢 和 主 存 (DRAM ) 
( 每 字 节 ) 

成 本 更 低 的 。 L5: 本 地 二 级 存储 ( 本 地 磁盘 ) 
存储 设备 





L6: 远程 二 级 存储 


(分布 式 文件 系统 、Web 服 务 器 ) 


CPU 寄存 器 保存 着 从 高 速 
缓存 存储 器 取出 的 字 


Ll 高 速 缓存 保存 着 从 L2 
高 速 缓存 取出 的 缓存 行 


L2 高 速 缓存 保存 着 从 L3 
高 速 缓存 取出 的 缓存 行 


L3 高 速 缓存 保存 着 从 主 存 
高 速 缓存 取出 的 缓存 行 


主 存 保存 着 从 本 地 磁盘 
取出 的 磁盘 块 


本 地 磁盘 保存 着 从 远程 网 络 
服务 器 磁盘 上 取出 的 文件 


图 6-21 存储 器 层次 结构 
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或 多 个 小 型 到 中 型 的 基于 SRAM 的 高 速 缓存 存储 器 ， 可 以 在 几 个 CPU 时 钟 周 期 内 访问 它 
们 。 然 后 是 一 个 大 的 基于 DRAM 的 主 存 ， 可 以 在 几 十 到 几 百 个 时 钟 周期 内 访问 它们 。 接 
下 来 是 慢 速 但 是 容量 很 大 的 本 地 磁盘 。 最 后 ， 有 些 系 统 其 至 包括 了 一 层 附 加 的 远程 服务 占 
上 的 磁盘 ， 要 通过 网 络 来 访问 它们 。 例 如 ， 像 安德鲁 文件 系统 (Andrew File System,， 
AFS) 或 者 网 络 文件 系统 (Network File System，NFS) 这 样 的 分 布 式 文件 系统 ， 允 许 程序 
访问 存储 在 远程 的 网 络 服务 需 上 的 文件 。 类 似 地 ， 万 维 网 允许 程序 访问 存储 在 世界 上 任何 
地 方 的 Web 服务 硕 上 的 远程 文件 。 


其 他 的 存储 器 层次 结构 

我 们 向 你 展示 了 一 个 存储 器 层次 结构 的 示例 ， 但 是 其 他 的 组 合 也 是 可 能 的 ， 而 且 确 
实 也 很 常见 。 例 如 ， 许 多 站 点 (包括 谷歌 的 数据 中 心 ) 将 本 地 磁盘 备份 到 存档 的 磁带 上 。 
其 中 有 些 站 点 ， 在 需要 时 由 人 工装 好 磁带 。 而 其 他 站 点 则 是 由 磁带 机 器 人 自动 地 完成 这 
项 任务 。 无 论 在 哪 种 情况 中 ， 磁 带 都 是 存储 器 层次 结构 中 的 一 屋 ， 在 本 地 磁盘 层 下 面 ， 
本 书 中 提 到 的 通用 原则 也 同样 适用 于 它 。 磁 带 每 字 节 比 磁盘 更 便宜 ， 它 允许 站 点 将 本 地 磁 
盘 的 多 个 快照 存档 。 代 价 是 磁带 的 访问 时 间 要 上 比 磁盘 的 更 长 。 来 看 另 一 个 例子 ， 固 态 硬 盘 
在 存储 器 层次 结构 中 扮演 着 越 来 越 重 要 的 角色 ， 连 接 起 DRAM 和 旋转 磁盘 之 间 的 鸿沟 。 


6. 3. 1 存储 器 层次 结构 中 的 缓存 

一 般 而 言 ， 高 速 缓存 (cache， 读 作 “cash”) 是 一 个 小 而 快速 的 存储 设备 ， 它 作为 存储 
在 更 大 、 也 更 慢 的 设备 中 的 数据 对 象 的 缓冲 区 域 。 使 用 高 速 缓存 的 过 程 称 为 缓存 (caching， 
读 作 “cashing”)。 

存储 融 层 次 结构 的 中 心思 想 是 ， 对 于 每 个 A， 位 于 &A 层 的 更 快 更 小 的 存储 设备 作为 位 于 
& 十 1 层 的 更 大 更 慢 的 存储 设备 的 缓存 。 换 句 话 说 ， 层 次 结构 中 的 每 一 层 都 缓存 来 自 较 低 一 层 
的 数据 对 象 。 例 如 ， 本 地 磁盘 作为 通过 网 络 从 远程 磁盘 取出 的 文件 (例如 Web 页 面 ) 的 缓存 ， 
主 存 作为 本 地 磁盘 上 数据 的 缓存 ， 依 此 类 推 ， 直到 最 小 的 缓存 一 一 CPU 寄存 右 组 。 

图 6-22 展示 了 存储 名 层 次 结构 中 缓存 的 一 般 性 概念 。 第 十 1 层 的 存储 器 被 划分 成 连 
续 的 数据 对 象 组 块 (chunk) ， 称 为 块 (block)。 每 个 块 都 有 一 个 唯一 的 地 址 或 名 字 ， 使 之 区 
别 于 其 他 的 块 。 块 可 以 是 固定 大 小 的 (通常 是 这 样 的 )， 也 可 以 是 可 变 大 小 的 (例如 存储 在 
Web 服务 大 上 的 远程 HTML 文件 )。 例 如 ,图 6-22 中 第 十 1 层 存 储 紫 被 划分 成 16 个 大 
小 固定 的 块 ， 编 号 为 0 一 15。 

第 k 层 更 小 、 更 快 、 更 昂 贯 的 设备 


Ei 绥 存 着 第 如 1 层 块 的 一 个 了 集 


数据 以 块 为 大 小 传输 
[| 单元 在 层 与 层 之 间 复 制 


第 k 层 : 








第 寻 1 层 : 第 kt1 层 更 大 、 更 慢 、 更 便宜 的 


设备 被 划分 成 块 


图 6-22 存储 器 层次 结构 中 基本 的 缓存 原理 
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类 似 地 ， 第 上 层 的 存储 右 被 划分 成 较 少 的 块 的 集合 ， 每 个 块 的 大 小 与 & 十 1 层 的 块 的 大 
小 一 样 。 在 任何 时 刻 ， 第 & 层 的 缓存 包含 第 & 十 1 层 块 的 一 个 子 集 的 副本 。 例 如 ， 在 图 6-22 
中 ， 第 & 层 的 绥 存 有 4 个 块 的 空间 ， 当 前 包含 块 4、9、14 和 3 的 副本 。 

数据 总 是 以 块 大 小 为 传送 单元 (transfer unit) 在 第 有 & 层 和 第 & 十 1 层 之 间 来 回复 制 的 。 
虽然 在 层次 结构 中 任何 一 对 相 邻 的 层次 之 间 块 大 小 是 固定 的 ， 但 是 其 他 的 层次 对 之 间 可 以 
有 不 同 的 块 大 小 。 例 如 ， 在 图 6-21 中 ，L1 和 L0 之 间 的 传送 通常 使 用 的 是 1 个 字 大 小 的 
块 。L2 和 Ll 之 间 ( 以 及 1L3 和 L2 之 间 、L4 和 L3 之 间 ) 的 传送 通常 使 用 的 是 几 十 个 字 节 的 
块 。 而 L5 和 L4 之 间 的 传送 用 的 是 大 小 为 几 百 或 几 和 王 字 节 的 块 。 一 般 而 言 ， 层 次 结构 中 较 
低层 ( 离 CPU 较 远 ) 的 设备 的 访问 时 间 较 长 ， 因 此 为 了 补偿 这 些 较 长 的 访问 时 间 ， 倾向 于 
使 用 较 大 的 块 。 

1. 缓存 命中 

当 程 序 需 要 第 & 十 1 层 的 某 个 数据 对 象 4 时 ， 它 首先 在 当前 存储 在 第 有 层 的 一 个 块 中 
查找 d。 如 果 4 刚好 缓存 在 第 k 层 中 ,那么 就 是 我 们 所 说 的 缓存 命中 (cache hit) 。 该 程序 
直接 从 第 & 层 读 取 &， 根 据 存储 天 层次 结构 的 性 质 ， 这 要 比 从 第 &+1 层 读 取 d 更 快 。 例 
如 ,一 个 有 展 好 时 间 局 部 性 的 程序 可 以 从 块 14 中 读 出 一 个 数据 对 象 ， 得 到 一 个 对 第 & 层 
的 缓存 命中 。 

2. 缓存 不 命中 

另 一 方面 ， 如 果 第 & 层 中 没有 缓存 数据 对 象 &， 那 么 就 是 我 们 所 说 的 缓存 不 命中 
(cache miss)。 当 发 生 缓 存 不 命中 时 ， 第 上 层 的 缓存 从 第 上 十 1 层 缓存 中 取出 包含 d 的 那个 
块 ， 如 果 第 & 层 的 缓存 已 经 满 了 ， 可 能 就 会 覆盖 现存 的 一 个 块 。 

覆盖 一 个 现存 的 块 的 过 程 称 为 替换 (replacing) 或 驱逐 (evicting) 这 个 块 。 被 驱逐 的 这 
个 块 有 时 也 称 为 御 禾 块 Cvictim block)。 决 定 该 蔡 换 哪个 块 是 由 缓存 的 替换 策略 (replace- 
ment policy) 来 控制 的 。 例 如 ， 一 个 具有 随机 替换 策略 的 缓存 会 随机 选择 一 个 牺牲 块 。 一 
个 具有 最 近 最 少 被 使 用 (CLRU) 答 换 策略 的 绥 存 会 选择 那个 最 后 被 访问 的 时 间距 现在 最 远 
的 块 。 

在 第 & 层 缓存 从 第 & 十 1 层 取 出 那个 块 之 后 ， 程 序 就 能 像 前 面 一 样 从 第 & 层 读 出 d 了 。 
例如 ， 在 图 6-22 中 ,在 第 & 层 中 读 块 12 中 的 一 个 数据 对 象 ， 会 导致 一 个 缓存 不 命中 ， 因 
为 块 12 当前 不 在 第 上 上层 缓存 中 。 一 旦 把 块 12 从 第 上 十 1 层 复 制 到 第 &A 层 之 后 ， 它 就 会 保 
持 在 那里 ， 等 待 稍 后 的 访问 。 

3. 缓存 不 命中 的 种 类 

区 分 不 同 种 类 的 缓存 不 命中 有 了 时候 是 很 有 帮助 的 。 如 果 第 k 层 的 缓存 是 空 的 ， 那 么 对 
任何 数据 对 象 的 访问 都 会 不 命中 。 一 个 空 的 缓存 有 时 被 称 为 冷 缓 存 (cold cache)， 此 类 不 
命中 称 为 强制 性 不 命中 (compulsory miss) 或 冷 不 命中 (cold miss)。 冷 不 命中 很 重要 ， 因 为 
它们 通常 是 短暂 的 事件 ， 不 会 在 反复 访问 存储 器 使 得 缓存 暧 身 (warmed up) 之 后 的 稳定 状 
态 中 出 现 。 

只 要 发 生 了 不 命中 ,第 & 层 的 缓存 就 必须 执行 某 个 放置 策略 (Placement policy) ， 确 定 
把 它 从 第 & 十 1 层 中 取出 的 块 放 在 哪里 。 最 灵活 的 替换 策略 是 允许 来 自 第 & 十 1 层 的 任何 块 
放 在 第 & 层 的 任何 块 中 。 对 于 存储 需 层 次 结构 中 高 层 的 缓存 (靠近 CPU)， 它 们 是 用 硬件 来 
实现 的 ， 而 且 速 度 是 最 优 的 ， 这 个 策略 实现 起 来 通常 很 昂贵 ， 因 为 随机 地 放置 块 ， 定 位 起 
来 代价 很 高 。 
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因此 ， 硬 件 缓存 通常 使 用 的 是 更 严格 的 放置 策略 ， 这 个 策略 将 第 十 1 层 的 某 个 块 限 
制 放 置 在 第 有 层 块 的 一 个 小 的 子 集中 (有 时 只 是 一 个 块 ;。 例 如 ， 在 图 6-22 中 ,我 们 可 以 
确定 第 上 十 1 层 的 块 i 必须 放置 在 第 k& 层 的 块 (i mod 4) 中 。 例 如 ， 第 & 十 1 层 的 块 0、4、8 
和 12 会 映射 到 第 & 层 的 块 0; 块 1、5、9 和 13 会 映射 到 块 1; 依 此 类 推 。 注 意 ， 图 6-22 
中 的 示例 缓存 使 用 的 就 是 这 个 策略 。 

这 种 限制 性 的 放置 策略 会 引起 一 种 不 命中 ， 称 为 冲突 不 命中 (conflict miss)， 在 这 种 
情况 中 ， 绥 存 足 够 大 ， 能 够 保存 被 引用 的 数据 对 象 ， 但 是 因为 这 些 对 象 会 映射 到 同一 个 组 
存 块 ， 缓 存 会 一 直 不 命中 。 例 如 ， 在 图 6-22 中 ， 如 果 程 序 请 求 块 0， 然 后 块 8， 然 后 块 0， 
然后 块 8， 依 此 类 推 ， 在 第 & 层 的 缓存 中 ， 对 这 两 个 块 的 每 次 引用 都 会 不 命中 ， 即 使 这 个 
缓存 总 共 可 以 容纳 4 个 块 。 

程序 通常 是 按照 一 系列 阶段 (如 循环 ) 来 运行 的 ， 每 个 阶段 访问 缓存 块 的 某 个 相对 稳定 
不 变 的 集合 。 例 如 ， 一 个 上 藤 套 的 循环 可 能 会 反复 地 访问 同一 个 数组 的 元 素 。 这 个 块 的 集合 
称 为 这 个 阶段 的 工作 集 (working set)。 当 工作 集 的 大 小 超过 缓存 的 大 小 时 ， 缓 存 会 经 历 容 
量 不 命中 (capacity miss)。 换 句 话 说 就 是 ， 缓 存 太 小 了 ， 不 能 处 理 这 个 工作 和 集 。 

4. 缓存 管理 

正如 我 们 提 到 过 的 ， 存 储 峰 层次 结构 的 本 质 是 ， 每 一 层 存 储 设 备 都 是 较 低 一 层 的 组 
存 。 在 每 一 层 上 ， 某 种 形式 的 逻辑 必须 管理 缓存 。 这 里 ， 我 们 的 意思 是 指 某 个 东西 要 将 组 
存 划分 成 块 ， 在 不 同 的 层 之 间 传 送 块 ， 判 定 是 命中 还 是 不 命中 ， 并 处 理 它们 。 管 理 缓存 的 
逻辑 可 以 是 硬件 、 软 件 ， 或 是 两 者 的 结合 。 

例如 ， 编 译 需 管理 寄存 需 文 件 ， 绥 存 层次 结构 的 最 高 层 。 它 决定 当 发 生 不 命中 时 何 时 
发 射 加 载 ， 以 及 确定 哪个 寄存 器 来 存放 数据 。L1、L2 和 L3 层 的 缓存 完全 是 由 内 置 在 缓存 
中 的 硬件 逻辑 来 管理 的 。 在 一 个 有 虚拟 内 存 的 系统 中 ，DRAM 主 存 作 为 存储 在 磁盘 上 的 
数据 块 的 缓存 ， 是 由 操作 系统 软件 和 CPU 上 的 地 址 翻译 硬件 共同 管理 的 。 对 于 一 个 具有 
像 AFS 这 样 的 分 布 式 文件 系统 的 机 吉 来 说 ， 本 地 磁盘 作为 缓存 ， 它 是 由 运行 在 本 地 机 器 
上 的 AFS 客户 端 进程 管理 的 。 在 大 多 数 时 候 ， 绥 存 都 是 自动 运行 的 ， 不 需要 程序 采取 特 
殊 的 或 显 式 的 行动 。 


6. 3.2 存储 器 层次 结构 概念 小 结 


概括 来 说 ， 基 于 缓存 的 存储 带 层 次 结构 行 之 有 效 ， 是 因为 较 慢 的 存储 设备 比较 快 的 存 
储 设 备 更 便宜 ， 还 因为 程序 倾 问 于 展示 局 部 性 : 

e 利用 时 间 局 部 性 : 由 于 时 间 局 部 性 ， 同 一 数据 对 象 可 能 会 被 多 次 使 用 。 一 旦 一 个 数 

据 对 象 在 第 一 次 不 命中 时 被 复制 到 缓存 中 ， 我 们 就 会 期 望 后 面 对 该 目标 有 一 系列 的 

访问 命中 。 因 为 缓存 比 低 一 层 的 存储 设备 更 快 ， 对 后 面 的 命中 的 服务 会 比 最 开始 的 

不 命中 快 很 多 。 

e@ 利用 空间 局 部 性 : 块 通常 包含 有 多 个 数据 对 象 。 由 于 空间 局 部 性 ， 我 们 会 期 望 后 面 

对 该 块 中 其 他 对 象 的 访问 能 够 补偿 不 谷中 后 复制 该 块 的 花费 。 

现代 系统 中 到 处 都 使 用 了 缓存 。 正 如 从 图 6-23 中 能 够 看 到 的 那样 ，CPU 芯片 、 操 作 
系统 、 分 布 式 文件 系统 中 和 万 维 网 上 都 使 用 了 缓存 。 各 种 各 样 硬 件 和 软件 的 组 合 构成 和 管 
理 着 缓存 。 注 意 ,图 6-23 中 有 大 量 我 们 还 未 涉及 的 术语 和 缩写 。 在 此 我 们 包括 这 些 术语 
和 缩写 是 为 了 说 明 缓 存 是 多 么 的 普遍 。 
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图 6-23 ”缓存 在 现代 计算 机 系统 中 无 处 不 在 。TLB: 翻译 后 备 缓冲 器 (Translation Lookaside Buffer); 
MMU: 内 存 管理 单元 (Memory Management Unit); OS 操作 系统 (Operating System ) ; 
AFS: 安德鲁 文件 系统 (Andrew File System); NFS， 网 络 文 件 系 统 (Network File System) 


6. 4 高 速 缓存 存储 器 

早期 计算 机 系统 的 存储 器 层次 结构 只 有 三 层 : CPU 寄存 器 、DRAM 主 存储 器 和 磁盘 
存储 。 不 过 ， 由 于 CPU 和 主 存 之 间 逐 渐 增 大 的 差距 ， 系 统 设计 者 被 迫 在 CPU 寄存 器 文件 
和 主 存 之 间 插 入 了 一 个 小 的 SRAM 高 速 缓 存 存 储 器 ， 称 为 Ll1 高 速 缓存 (一 级 缓存 ) ， 如 
图 6-24 所 示 。L1l 高 速 缓存 的 访问 速度 几乎 和 寄存 器 一 样 快 ， 典 型 地 是 大 约 4 个 时 钟 周期 。 


CPU 芯片 






寄存 器 文件 
[一 


图 6-24 高 速 缓存 存 储 融 的 典型 总 线 结 构 


随 着 CPU 和 主 存 之 间 的 性 能 差距 不 断 增 大 ， 系 统 设 计 者 在 L1 高 速 缓 存 和 主 存 之 间 又 
插入 了 一 个 更 大 的 高 速 缓 存 ， 称 为 L2 高 速 缓存 ， 可 以 在 大 约 10 个 时 钟 周 期 内 访问 到 它 。 
有 些 现代 系统 还 包括 有 一 个 更 大 的 高 速 缓存 ， 称 为 L3 高 速 缓存 ,在 存储 髓 层次 结构 中 ， 
它 位 于 L2 高 速 缓存 和 主 存 之 间 ， 可 以 在 大 约 50 个 周期 内 访问 到 它 。 虽 然 安 排 上 有 相当 多 
的 变化 ， 但 是 通用 原则 是 一 样 的 。 对 于 下 一 节 中 的 讨论 ， 我 们 会 假设 一 个 简单 的 存储 右 层 
次 结构 ，CPU 和 主 存 之 间 只 有 一 个 L1 高 速 缓存 。 


6.4.1 通用 的 高 速 缓存 存储 器 组 织 结构 


考虑 一 个 计算 机 系统 ， 其 中 每 个 存储 右 地 址 有 欧 位 ， 形 成 M 二 2”" 个 不 同 的 地 址 。 如 
图 6-25a 所 示 ， 这 样 一 个 机 器 的 高 速 缓存 被 组 织 成 一 个 有 S 二 2: 个 高 速 缓存 组 (cache set) 的 
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数组 。 每 个 组 包含 五 个 高 速 缓存 行 (cache line)。 每 个 行 是 由 一 个 B= 二 2 字 节 的 数据 块 
(block) 组 成 的 ,一 个 有 效 位 (valid bit) 指 明 这 个 行 是 否 包 含有 意义 的 信息 ， 还 有 t 二 一 
(十 个 标记 位 (tag bit)( 是 当前 块 的 内 存 地 址 的 位 的 一 个 子 集 ), 它们 唯一 地 标识 存储 在 
这 个 高 速 缓存 行 中 的 块 。 
每 行 1 个 每 行 个 每 个 高 速 缓存 块 
有 效 位 标记 位 有 B=2, 字 节 


oT TT 1 









组 0: 每 组 6 行 






S=25 组 





(| 1 | [Sl 
[vw | 3 | ow [Ba 


高 速 缓 存 大 小 C=BxExS 数 据 字 节 


a) 


tfy sfy bfy 


组 S$-1: 


EN 
标记 。 ”组 索引 块 偏 移 
b) 
辐 6-25 ”高 速 缓存 (S$， EE，B，m) 的 通用 组 织 。a) 高 速 缓 存 是 一 个 高 速 缓存 组 的 数组 。 每 个 组 包 合 
一 个 或 多 个 行 ， 每 个 行 包 含 一 个 有 效 位 ， 一 些 标记 位 ， 以 及 一 个 数据 块 ; b) 高 速 缓 存 的 
结构 将 mr 个 地 址 位 划分 成 了 1 个 标记 位 、* 个 组 索引 位 和 2 个 块 偏 移 位 

一 般 而 言 ， 高 速 缓存 的 结构 可 以 用 元 组 (S$， 玉 ，B，m) 来 描述 。 高 速 缓存 的 大 小 (或 
容量 )C 指 的 是 所 有 块 的 大 小 的 和 。 标 记 位 和 有 效 位 不 包括 在 内 。 因 此 ,C= 二 SXExB,， 

当 一 条 加 载 指令 指 示 CPU 从 主 存 地 址 A 中 读 一 个 字 时 ， 它 将 地 址 A 发 送 到 高 速 组 
存 。 如 果 高 速 缓存 正 保 存 着 地 址 A 处 那个 字 的 副本 ， 它 就 立即 将 那个 字 发 回 给 CPU。 和 那 
么 高 速 缓存 如 何 知道 它 是 否 包 含 地 址 A 处 那个 字 的 副本 的 呢 ? 高 速 缓存 的 结构 使 得 它 能 通 
过 人 简单 地 检查 地 址 位 ， 找 到 所 请 求 的 字 ， 类 似 于 使 用 极其 简单 的 哈 希 函数 的 哈 希 表 。 下 面 
介绍 它 是 如 何 工 作 的 : 

参数 S 和 B 将 m 个 地 址 位 分 为 了 三 个 字段 ， 如 图 6-25b 所 示 。A 中 ;个 组 索引 位 是 一 
个 到 S 个 组 的 数组 的 索引 。 第 一 个 组 是 组 0， 第 二 个 组 是 组 1， 依 此 类 推 。 组 索引 位 被 解 
释 为 一 个 无 符号 整数 ， 它 告诉 我 们 这 个 字 必 须 存 储 在 哪个 组 中 。 一 且 我 们 知道 了 这 个 字 必 
须 放 在 哪个 组 中 ，A 中 的 上 个 标记 位 就 告诉 我 们 这 个 组 中 的 哪 一 行 包 含 这 个 字 ( 如 果 有 的 
话 )。 当 且 仅 当 设 置 了 有 效 位 并 且 该 行 的 标记 位 与 地 址 A 中 的 标记 位 相 匹配 时 ， 组 中 的 这 
一 行 才 包含 这 个 字 。 一 旦 我 们 在 由 组 索引 标识 的 组 中 定位 了 由 标号 所 标识 的 行 ， 那 么 5 个 
块 偏 移 位 给 出 了 在 B 个 字 节 的 数据 块 中 的 字 仿 移 。 

你 可 能 已 经 注意 到 了 ， 对 高 速 缓存 的 描述 使 用 了 很 多 符号 。 图 6-26 对 这 些 符 号 做 了 
个 小 结 ， 供 你 参考 。 
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代数 | 撕 x: 
M2” | 内 有 地 直 交 最 数量 | 
组 索引 位 二 

boglB) | 所 从 fi 数量 
不 包括 像 有 效 位 和 标记 位 这 样 开销 的 高 速 缓存 大 小 〔 字 节 ) 


名 626 高 速 缓存 参数 小 结 


让 总 练习 题 6.9 下 表 给 出 了 儿 个 不 同 的 高 速 缓存 的 参数 。 确 定 每 个 高 速 缓存 的 高 速 缓存 
组 数 (S)、 标 记 位 数 (t)、 组 索引 位 数 (s) 以 及 块 偏 移 位 数 (6)。 





6. 4.2 直接 映射 高 速 缓 存 

根据 每 个 组 的 高 速 缓 存 行 数 琅 ， 高 速 缓存 被 分 为 不 同 的 类 。 每 个 组 只 有 一 行 (E 二 1) 的 
高 速 缓 存 称 为 直接 映射 高 速 缓存 (direct-mapped cache)( 见 图 6-27)。 直 接 映 射 高 速 缓 存 是 
最 容易 实现 和 理解 的 ， 所 以 我 们 会 以 它 为 例 来 说 明 一 些 高 速 缓存 工作 方式 的 通用 概念 。 


ao } £iaaifi 


组 1: 高 速 缓存 块 


组 S-1: 高 速 缓存 块 
下 6-27 直接 映射 高 速 缓 存 (E 二 1)。 每 个 组 只 有 一 行 


假设 我 们 有 这 样 一 个 系统 ， 它 有 一 个 CPU、 一 个 寄存 器 文件 、 一 个 Ll 高 速 缓存 和 一 
个 主 存 。 当 CPU 执行 一 条 读 内 存 字 ww 的 指令 ， 它 向 L1 高 速 缓存 请 求 这 个 字 。 如 果 L1 高 
速 缓存 有 的 一 个 缓存 的 副本 ， 那 么 就 得 到 L1 高 速 缓存 命中 ， 高 速 缓存 会 很 快 抽取 出 
w， 并 将 它 返回 给 CPU。 否 则 就 是 缓存 不 命中 ， 当 Ll 高 速 缓存 向 主 存 请 求 包含 w 的 块 的 
一 个 副本 时 ，CPU 必须 等 待 。 当 被 请 求 的 块 最终 从 内 存 到 达 时 ，L1 高 速 缓存 将 这 个 块 存 
放 在 它 的 一 个 高 速 缓存 行 里 ， 从 被 存储 的 块 中 抽取 出 字 w， 然 后 将 它 返回 给 CPU。 高 速 
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缓存 确定 一 个 请 求 是 否 命中 ， 然 后 抽取 出 被 请 求 的 字 的 过 程 ， 分 为 三 步 : 1) 组 选择 ; 2) 
行 匹配 ; 3) 他 抽取 。 

1. 直接 映射 高 速 缓存 中 的 组 选择 

在 这 一 步 中 ， 高 速 缓存 从 w 的 地 址 中 间 抽 取出 ;个 组 索引 位 。 这 些 位 被 解释 成 一 个 对 应 
于 一 个 组 号 的 无 符号 整数 。 换 句 话 来 说 ， 如 果 我 们 把 高 速 缓存 看 成 是 一 个 关于 组 的 一 维 数 
组 ， 那 么 这 些 组 索引 位 就 是 一 个 到 这 个 数组 的 索引 。 图 6-28 展示 了 直接 映射 高 速 缓存 的 组 选 
择 是 如 何 工 作 的 。 在 这 个 例子 中 ， 组 索引 位 00001* 被 解释 为 一 个 选择 组 1 的 整数 索引 。 


组 0: 高 速 缓存 块 
] 
组 1: 高 速 组 存世 


组 S-1; 高 速 缓存 块 
17] 一 ] 


0 
标记 组 索引 块 偏 移 
图 6-28 直接 映射 高 速 缓存 中 的 组 选择 


2. 直接 映射 高 速 缓存 中 的 行 匹配 

在 上 一 步 中 我 们 已 经 选择 了 某 个 组 i?， 接 下 来 的 一 步 就 要 确定 是 否 有 字 ww 的 一 个 副本 
存储 在 组 i 包含 的 一 个 高 速 缓存 行 中 。 在 直接 映射 高 速 缓存 中 这 很 容易 ， 而 且 很 快 ， 这 是 
因为 每 个 组 只 有 一 行 。 当 且 仅 当 设 置 了 有 效 位 ， 而 且 高 速 缓存 行 中 的 标记 与 ww 的 地 址 中 的 
标记 相 匹 配 时 ， 这 一 行 中 包含 多 的 一 个 副本 。 

图 6-29 展示 了 直接 映射 高 速 缓存 中 行 匹配 是 如 何 工作 的 。 在 这 个 例子 中 ， 选 中 的 组 
中 只 有 一 个 高 速 缓存 行 。 这 个 行 的 有 效 位 设置 了 ， 所 以 我 们 知道 标记 和 块 中 的 位 是 有 意义 
的 。 因 为 这 个 高 速 缓存 行 中 的 标记 位 与 地 址 中 的 标记 位 相 匹 配 ， 所 以 我 们 知道 我 们 想 要 的 
那个 字 的 一 个 副本 确实 存储 在 这 个 行 中 。 换 句 话 说 ， 我们 得 到 一 个 缓存 命中 。 为 一 方面 ， 
如 果 有 效 位 没有 设置 ， 或 者 标记 不 相 匹配 ， 那 么 我 们 就 得 到 一 个 缓存 不 命中 。 

=1?(〈1 ) 有 效 位 必须 设置 











3 志 了 





3 





4 
选择 的 组 (i): 


(2 ) 高 速 缓存 行 中 的 标 
记 位 必须 与 地 址 中 =? 


(3) 如果 (1) 和 (2) 满足 ， 
那么 高 速 缓存 命中 ， 块 偏 移 就 


的 标记 位 相 匹 配 。 | 选择 起 始 字 节 。 
t 位 S 位 位 
0 一生 一 
1 一 


标记 组 索引 块 偶 移 


图 6-29 直接 映射 高 速 缓存 中 的 行 匹配 和 字 选 择 。 在 高 速 缓存 块 中 ，ran 表示 字 也 
的 低位 字 节 ，w 是 下 一 个 字 节 ， 依 此 类 推 


3. 直接 映射 高 速 缓存 中 的 字 选 择 

一 县 命中 ， 我 们 知道 w 就 在 这 个 块 中 的 某 个 地 方 。 最 后 一 步 确定 所 需要 的 字 在 块 中 是 
从 哪里 开始 的 。 如 图 6-29 所 示 ， 块 偏 移 位 提供 了 所 需要 的 字 的 第 一 个 字 节 的 偏 移 。 就 像 
我 们 把 高 速 缓存 看 成 一 个 行 的 数组 一 样 ， 我 们 把 块 看 成 一 个 字 节 的 数组 ， 而 字 市 偏 移 是 到 
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这 个 数组 的 一 个 索引 。 在 这 个 示例 中 ， 块 侦 移 位 是 100;， 它 表明 w 的 副本 是 从 块 中 的 字 
节 4 开 始 的 (我 们 假设 字 长 为 4 字 节 )。 

4. 直接 映射 高 速 缓存 中 不 命中 时 的 行 替换 

如 有 果 绥 存 不 命中 ,那么 它 需 要 从 存储 器 层次 结构 中 的 下 一 层 取出 被 请 求 的 块 ， 然 后 将 
新 的 块 存 储 在 组 索引 位 指示 的 组 中 的 一 个 高 速 缓存 行 中 。 一 般 而 言 ， 如 果 组 中 都 是 有 效 高 
速 缓存 行 了 了， 那么 必须 要 驱逐 出 一 个 现存 的 行 。 对 于 直接 映射 高 速 缓存 来 说 ， 每 个 组 只 包 
含有 一 行 ， 蔡 换 策略 非常 简单 : 用 新 取出 的 行 蔡 换 当前 的 行 。 

5. 综合 : 运行 中 的 直接 映射 高 速 缓存 

高 速 缓存 用 来 选择 组 和 标识 行 的 机 制 极 其 简单 ， 因 为 硬件 必须 在 几 个 纳 秒 的 时 间 内 完 
成 这 些 工作 。 不 过 ， 用 这 种 方式 来 处 理 位 是 很 令 人 困惑 的 。 一 个 具体 的 例子 能 帮助 解释 清 
楚 这 个 过 程 。 假 设 我 们 有 一 个 耳 接 映射 高 速 缓存 ， 描 述 如 下 

(S,E,B,m) = (4,1,2,4) 

换 句 话说 ， 高 速 缓存 有 4 个 组 ， 每 个 组 一 行 ， 每 个 块 2 个 字 节 ， 而 地 址 是 4 位 的 。 我 们 还 假设 
每 个 字 都 是 单字 节 的 。 当 然 ， 这 样 一 些 假设 完全 是 不 现实 的 ， 但 是 它们 能 使 示例 保持 简单 。 

当 你 初学 高 速 缓存 时 ， 列 举 出 整个 地 址 空间 并 划分 好 位 是 很 有 帮助 的 ， 就 像 我 们 在 
图 6-30 对 4 位 的 示例 所 做 的 那样 。 关 于 这 个 列举 出 的 空间 ， 有 一 些 有 趣 的 事情 值得 注意 : 


标记 位 索引 位 偏 移 位 块 号 
({=1) (s=2) (b=1) (十 进 制 ) 


SS 所 


0 
] 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 
14 
15S 





图 6-30 示例 直接 映射 高 速 缓 存 的 4 位 地 址 空间 


e 标记 位 和 索引 位 连 起 来 唯一 地 标识 了 内 存 中 的 每 个 块 。 例 如 ， 块 0 是 由 地 址 0 和 1 
组 成 的 , 块 1 是 由 地 址 2 和 3 组 成 的 , 块 2 是 由 地 址 4 和 5 组 成 的 ， 依 此 类 推 。 

e 因为 有 8 个 内 存 块 ， 但 是 只 有 4 个 高 速 缓存 组 ， 所 以 多 个 块 会 映射 到 同一 个 高 速 组 
存 组 ( 即 它们 有 相同 的 组 索引 )。 例 如 ， 块 0 和 4 都 映射 到 组 0, 块 1 和 5 都 映射 到 
组 1， 等 等 。 

e 映射 到 同一 个 高 速 缓 存 组 的 块 由 标记 位 唯一 地 标识 。 例 如 ， 块 0 的 标记 位 为 0， 而 
块 4 的 标记 位 为 1， 块 1 的 标记 位 为 0， 而 块 5 的 标记 位 为 1， 以 此 类 推 。 

让 我 们 来 模拟 一 下 当 CPU 执行 一 系列 读 的 时 候 ， 高 速 缓存 的 执行 情况 。 记 住 对 于 这 


个 示例 ， 我 们 假设 CPU 读 1 字 节 的 字 。 虽 然 这 种 手工 的 模拟 很 乏味 ， 你 可 能 想 要 跳 过 它 ， 
但 是 根据 我 们 的 经 验 ， 在 学 生 们 做 过 几 个 这 样 的 练习 之 前 ， 他 们 是 不 能 真正 理解 高 速 缓存 
是 如 何 工 作 的 。 

初始 时 ， 高 速 缓存 是 空 的 ( 即 每 个 有 效 位 虱 是 0): 


组 有 效 位 标记 位 块 [0] 块 [1] 


表 中 的 每 一 行 都 代表 一 个 高 速 缓存 行 。 第 一 列表 明 该 行 所 属 的 组 ， 但 是 请 记 住 提供 这 个 位 
只 是 为 了 方便 ， 实 际 上 它 并 不 真是 高 速 缓存 的 一 部 分 。 re 
际 的 位 。 现 在 ， 让 我 们 来 看 看 当 CPU 执行 一 系列 读 时 ， 都 发 生 了 什么 : 

1) 读 地 址 0 的 字 。 因 为 组 0 的 有 效 位 是 0， 是 缓存 不 命中 。 高 速 缓存 从 内 存 ( 或 低 一 
层 的 高 速 缓存 ) 取 出 块 90， 并 把 这 个 块 存储 在 组 0 中 。 然 后 ， 高 速 缓存 返回 新 取出 的 高 速 绥 
存 行 的 块 L0] 的 mLoj (内存 位 置 0 的 内 容 ) 。 


OO 


0 
1 
2 
3 


之 OO OO 


组 有 效 位 标记 位 块 [0] 块 [1] 
ml[0] ml[1] 





2) 读 地 址 1 的 字 。 这 次 会 是 高 速 缓存 命中 。 高 速 缓存 立即 从 高 速 缓存 行 的 块 L1J 中 返 
回 mLlj。 高 速 缓存 的 状态 没有 变化 。 
3) 读 地 址 13 的 字 。 由 于 组 2 中 的 高 速 缓存 行 不 是 有 效 的 ， 所 以 有 缓存 不 命中 。 高 速 
缓存 把 块 6 加 载 到 组 2 中 ， 然 后 从 新 的 高 速 缓存 行 的 块 L1jJ 中 返回 mL13j。 
有 效 位 。 ”标记 位 。 块 [0] 块 [] 
m[0] | m[1] 


此 


m[12] m[13] 





4) 读 地 址 8 的 字 。 这 会 发 生 缓存 不 命中 。 组 0 中 的 高 速 缓存 行 确实 是 有 效 的 ， 但 是 标 
记 不 匹配 。 高 速 缓存 将 块 4 加 载 到 组 0 中 (替换 读 地 址 0 时 读 入 的 那 一 行 )， 然 后 从 新 的 高 
速 缓存 行 的 块 [0] 中 返回 m[L8]。 
组 “有效 位 。 标记 位 块 0] 块 [] 


1 m[8] ml9] 
0 
] m[12] m[13] 
0 


5) 读 地 址 0 的 字 。 又 会 发 生 缓存 不 命中 ， 因 为 在 前 面 引 用 地 址 8 时 ， 我 们 刚好 蔡 换 了 
块 0。 这 就 是 冲突 不 命中 的 一 个 例子 ， 也 就 是 我 们 有 足够 的 高 速 缓存 空间 ， 但 是 却 交 蔡 地 
引用 映射 到 同一 个 组 的 块 。 
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组 效 位 标记 位 块 [0] 块 [1] 





6. 直接 映射 高 速 缓存 中 的 冲突 不 命中 

冲突 不 命中 在 真实 的 程序 中 很 常见 ， 会 导致 令 人 困惑 的 性 能 问题 。 当 程序 访问 大 小 为 
2 的 窘 的 数组 时 ， 直 接 映 射 高 速 缓 存 中 通常 会 发 生 冲 突 不 命中 。 例 如 ， 考 虑 一 个 计算 两 个 
癌 量 点 积 的 函数 : 
float dotprod(float x[8], float y[8] ) 
€ 

float sum = 0.0; 

1 生 : 

for (i = 0; i < 8; i++) 

sum += X[i] * y[i] ; 


1 
2 
3 
4 
5 
6 
7 
8 return sum; 
9 


} 


对 于 x 和 yy 来 说 ,这 个 函数 有 良好 的 空间 局 部 性 ， 因 此 我 们 期 望 它 的 命中 率 会 比较 高 。 不 
六 的 是 ， 并 不 总 是 如 此 。 

假设 浮 点 数 是 4 个 字 节 ，x 被 加 载 到 从 地 址 0 开始 的 32 字 节 连续 内 存 中 ， 而 y 紧 跟 在 
x 之后， 从 地 址 32 开始 。 为 了 简便， 假设 一 个 块 是 16 个 字 节 (足够 容纳 4 个 浮 点 数 )， 高 
速 缓存 由 两 个 组 组 成 ， 高 速 缓存 的 整个 大 小 为 32 字 节 。 我 们 会 假设 变量 sum 实际 上 存放 
在 一 个 CPU 寄存 右 中 ， 因 此 不 需要 内 存 引 用 。 根 据 这 些 假设 每 个 x[i] 和 y[i] 会 映射 到 相 
同 的 高 速 缓 存 组 : 


元 素 组 索引 元 素 地 址 组 索引 





在 运行 时 ， 循 环 的 第 一 次 迭代 引用 x[0]， 缓 存 不 命中 会 导致 包含 x[0] 一 x[3] 的 块 被 
加 载 到 组 0。 接 下 来 是 对 y[0] 的 引用 ， 又 一 次 缓存 不 命中 ， 导 致 包含 yY[0] 一 Y[3] 的 块 被 
复制 到 组 0， 覆 盖 前 一 次 引用 复制 进来 的 x 的 值 。 在 下 一 次 迭代 中 ， 对 x[1] 的 引用 不 命 
中 ， 导 致 x[0] 一 x[3] 的 块 被 加 载 回 组 0， 履 盖 掉 y[0]~~y[3] 的 块 。 因 而 现在 我 们 就 有 了 
一 个 冲突 不 命中 ， 而 且 实 际 上 后 面 每 次 对 x 和 y 的 引用 都 会 导致 冲突 不 命中 ， 因 为 我 们 在 
x 和 y 的 块 之 间 拌 动 (thrash)。 术 语 “ 拌 动 ” 描 述 的 是 这 样 一 种 情况 ， 即 高 速 缓存 反复 地 
加 载 和 驱逐 相同 的 高 速 缓存 块 的 组 。 

简要 来 说 就 是 ， 即 使 程序 有 良好 的 空间 局 部 性 ， 而 且 我 们 的 高 速 缓存 中 也 有 足够 的 空间 
来 存放 x[i] 和 y[i] 的 块 ， 每 次 引用 还 是 会 导致 冲突 不 命中 ， 这 是 因为 这 些 块 被 映射 到 了 同 
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一 个 高 速 缓存 组 。 这 种 抖动 导致 速度 下 降 2 或 3 倍 并 不 稀奇 。 另 外 ， 还 要 注意 虽然 我 们 的 示 
例 极其 简单 ， 但 是 对 于 更 大 、 更 现实 的 直接 映射 高 速 缓 存 来 说 ， 这 个 问题 也 是 很 真实 的 。 
华 运 的 是 ， 一 旦 程序 员 意 识 到 了 正在 发 生 什么， 就 很 容易 修正 抖动 问题 。 一 个 很 简单 的 方 
法 是 在 每 个 数组 的 结尾 放 B 字 的 填充 。 例 如 ， 不 是 将 x 定义 为 float x[8]， 而 是 定义 成 
float x[12]。 假 设 在 内 存 中 y 紧 跟 在 x 后 面 ， 我 们 有 下 面 这 样 的 从 数组 元 素 到 组 的 映射 : 


元 素 地 址 组 索引 元 系 地 址 组 索引 





在 x 结尾 加 了 填充 ，x[i] 和 y[i] 现 在 就 映射 到 了 不 同 的 组 ， 消 除了 拌 动 冲 突 不 命中 。 
证 弹 练习 题 6. 10 在 前 面 dotprod 的 例子 中 ， 在 我 们 对 数组 x 做 了 填充 之 后 ， 所 有 对 x 
和 y 的 引用 的 命中 率 是 多 少 ? 


上 图 河 为 什么 用 中 间 的 位 来 做 索引 


你 也 许 会 奇怪 ， 为 什么 高 速 缓存 用 中 间 的 位 来 作为 组 索引 ， 而 不 是 用 高 位 。 为 什么 
用 中 间 的 位 更 好 ， 是 有 很 好 的 原因 的 。 图 6-31 说 明了 原因 。 如 果 高 位 用 做 索引 ， 那 么 
一 些 连续 的 内 存 块 就 会 映射 到 相同 的 高 速 缓存 块 。 例 如 ， 在 图 中 ， 头 四 个 块 映 射 到 第 一 
个 高 速 缓存 组 ， 第 二 个 四 个 块 映 射 到 第 二 个 组 ， 依 此 类 推 。 如 果 一 个 程序 有 良好 的 空间 
局 部 性 ， 顺 序 扫 描 一 个 数组 的 元 素 ， 那 么 在 任何 时 刻 ， 高 速 缓存 都 只 保存 着 一 个 块 大 小 
中 间 位 索引 





4 组 高 速 缓存 











图 6-31 为 什么 用 中 间 位 来 作为 高 速 缓存 的 索引 
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的 数组 内 容 。 这 样 对 高 速 缓存 的 使 用 效率 很 低 。 相 比较 而 言 ， 以 中 间 位 作为 索引 ， 相 邻 
的 块 总 是 映射 到 不 同 的 高 速 缓存 行 。 在 这 里 的 情况 中 ， 高 速 缓存 能 够 存放 整个 大 小 为 C 
的 数组 片 ， 这 里 C 是 高 速 缓存 的 大 小 。 


医治 练习 题 6. 11 假想 一 个 高 速 缓存 ， 用 地 址 的 高 y 位 做 组 索引 ， 那 么 内 存 块 连续 的 片 
(chunk) 会 被 映射 到 同一 个 高 速 缓存 组 。 
A. 每 个 这 样 的 连续 的 数组 片 中 有 多 少 个 块 ? 
B. 考虑 下 面 的 代码 ， 它 运行 在 一 个 高 速 缓存 形式 为 (S,，E, B,m) 二 (512，]1，32， 
32) 的 系统 上 : 
int array[4096] ; 


for (i = 0; i < 4096; i++) 
sum += array [i]; 


在 任意 时 刻 ， 存 储 在 高 速 缓存 中 的 数组 块 的 最 大 数量 为 多 少 ? 


6. 4.3 组 相 联 高 速 缓存 

直接 映射 高 速 缓存 中 冲突 不 命中 造成 的 问题 源 于 每 个 组 只 有 一 行 ( 或 者 ， 按 照 我 们 的 
术语 来 描述 就 是 下 =1) 这 个 限制 。 组 相 联 高 速 缓存 (set associative cache) 放 松 了 这 条 限制 ， 
所 以 每 个 组 都 保存 有 多 于 一 个 的 高 速 缓存 行 。 一 个 1 二 EC/B 的 高 速 缓存 通常 称 为 正路 
组 相 联 高 速 缓存 。 在 下 一 节 中 ， 我 们 会 讨论 下 =C/B 这 种 特殊 情况 。 图 6-32 展示 了 一 个 2 
路 组 相 联 高 速 缓存 的 结构 。 












高 速 缓存 块 


组 0: | E= 每 组 2 行 






组 1: 






[有 效 | | 标记 | | 高 速 缓存 块 | 


图 6-32 组 相 联 高 速 缓存 (1 二 EC/B)。 在 一 个 组 相 联 高 速 缓存 中 ， 每 个 组 包含 多 于 一 个 行 。 
这 里 的 特例 是 一 个 2 路 组 相 联 高 速 缓存 


1. 组 相 联 高 速 缓存 中 的 组 选择 

它 的 组 选择 与 直接 映射 高 速 缓存 的 组 选择 一 样 ， 组 索引 位 标识 组 。 6-33 总 结 了 这 
个 原理 。 

2. 组 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 

组 相 联 高 速 缓存 中 的 行 匹 配 比 直接 映射 高 速 缓存 中 的 更 复杂 ， 因 为 它 必须 检查 多 个 行 
的 标记 位 和 有 效 位 ， 以 确定 所 请 求 的 字 是 否 在 集合 中 。 传 统 的 内 存 是 一 个 值 的 数组 ， 以 地 
址 作为 输入 ， 并 返回 存储 在 那个 地 址 的 值 。 另 一 方面 ， 相 联 存 储 器 是 一 个 (key，value) 对 
的 数组 ， 以 key 为 输入 ， 返 回 与 输入 的 key 相 匹 配 的 (key，value) 对 中 的 value 值 。 因 此 ， 
我 们 可 以 把 组 相 联 高 速 缓存 中 的 每 个 组 都 看 成 一 个 小 的 相 联 存储 器 ，key 是 标记 和 有 效 
位 ， 而 value 就 是 块 的 内 容 。 


组 $=]， 
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选择 的 组 om 高 速 缓存 块 


高 速 缓存 块 


La 
- 
- 


高 速 缓存 块 





位 3 位 pb 位 组 S-1: 
| TT 00001 TT | 


Mi— 


三 王道 全 三 
[人 一 人 





1 0 
标记 组 索引 块 偏 移 
图 6-33 ”组 相 联 高 速 缓存 中 的 组 选择 


6-34 展示 了 相 联 高 速 缓存 中 行 匹 配 的 基本 思想 。 这 里 的 一 个 重要 思想 就 是 组 中 的 
任何 一 行 都 可 以 包含 任何 映射 到 这 个 组 的 内 存 块 。 所 以 高 速 缓存 必须 搜索 组 中 的 每 一 行 ， 
寻找 一 个 有 效 的 行 ， 其 标记 与 地 址 中 的 标记 相 匹 配 。 如 果 高 速 缓存 找到 了 这 样 一 行 ， 那 么 
我 们 就 命中 ， 块 偶 移 从 这 个 块 中 选择 一 个 字 ， 和 前 面 一 样 。 


=1? (1) 有 效 位 必须 设置 


选择 的 组 (7) : 





(3) 如 果 (1) 和 (2) 为 真 ， 
那么 高 速 缓存 命中 ， 然 后 
块 偏 移 选 择 起 始 字 节 。 


(2 ) 高 速 缓存 行 中 某 -- 行 Y _， 
的 标记 位 必须 匹配 地 
址 中 的 标记 位 。 
位 sfy 
ON 1 i i 0  | 
m—l 0 
标记 组 索引 块 偏 移 


图 6-34 组 相 联 高 速 缓存 中 的 行 匹配 和 字 选 择 


3. 组 相 联 高 速 缓存 中 不 命中 时 的 行 替 换 

如 果 CPU 请 求 的 字 不 在 组 的 任何 一 行 中 ， 那 么 就 是 缓存 不 命中 ， 高 速 缓 存 必须 从 内 
存 中 取出 包含 这 个 字 的 块 。 不 过 ， 一旦 高 速 缓 存 取出 了 这 个 块 ， 该 替换 哪个 行 呢 ?当然 ， 
如 果 有 一 个 空 行 ， 那 它 就 是 个 很 好 的 候选 。 但 是 如 果 该 组 中 没有 空 行 ， 那 么 我 们 必须 从 中 
选择 一 个 非 空 的 行 ， 希望 CPU 不 会 很 快 引用 这 个 被 蔡 换 的 行 。 

程序 员 很 难 在 代码 中 利用 高 速 缓存 替换 策略 ， 所 以 在 此 我 们 不 会 过 多 地 讲述 其 细节 。 
最 简单 的 蔡 换 策略 是 随机 选择 要 替换 的 行 。 其 他 更 复杂 的 策略 利用 了 局 部 性 原理 ， 以 使 在 
比较 近 的 将 来 引用 被 蔡 换 的 行 的 概率 最 小 。 例 如 ， 最 不 常 使 用 (Least-Frequently-Used， 
LFU) 策 略 会 蔡 换 在 过 去 某 个 时 间 窗 口内 引用 次 数 最 少 的 那 一 行 。 最 近 最 少 使 用 (Least- 
Recently-Used，LRU) 策 略 会 替换 最 后 一 次 访问 时 间 最 久远 的 那 一 行 。 所 有 这 些 策略 都 需 
要 额外 的 时 间 和 人 硬件。 但是， 越 往 存储 器 层次 结构 下 面 走 ， 远离 CPU, 一 次 不 命中 的 开 
销 就 会 更 加 昂贵 ， 用 更 好 的 替换 策略 使 得 不 命中 最 少 也 变 得 更 加 值得 了 。 


6. 4.4 全 相 联 高 速 缓存 
全 相 联 高 速 缓存 (fully associative cache) 是 由 一 个 包含 所 有 高 速 缓存 行 的 组 ( 即 E==C/ 


一 
~ 
en 
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B) 组 成 的 。 图 6-35 给 出 了 基本 结构 。 


图 6-35 全 相 联 高 速 缓存 (E 二 C/B)。 在 全 相 联 高 速 缓存 中 ， 一 个 组 包含 所 有 的 行 


1. 全 相 联 高 速 缓存 中 的 组 选择 
全 相 联 高 速 缓存 中 的 组 选择 非常 简单 ， 因 为 只 有 一 个 组 ， 图 6-36 做 了 个 小 结 。 注 意 
地 址 中 没有 组 索引 位 ， 地 址 只 被 划分 成 了 一 个 标记 和 一 个 块 偏 移 。 


高 速 缓存 志 
高 速 缓存 块 






组 0: E= 唯 一 的 一 组 中 有 E=C/B 行 










整个 高 速 缓存 只 有 一 个 组 ， 
所 以 默认 总 是 选择 组 0。 组 0: 





2 下 高 速 组 存世 
m—1] 0 
标记 块 偏 移 
图 6-36 全 相 联 高 速 缓存 中 的 组 选择 。 注 意 没 有 组 索引 位 


2. 全 相 联 高 速 缓存 中 的 行 匹配 和 字 选 择 
全 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 与 组 相 联 高 速 缓存 中 的 是 一 样 的 ， 如 图 6-37 所 
示 。 它 们 之 间 的 区 别 主要 是 规模 大 小 的 问题 。 


=1? (1 ) 有 效 位 必须 设置 


整个 高 速 缓存 


(3 ) 如 果 (1) 和 (2) 满足 ,那么 高 


(2 ) 高 速 缓存 行 中 某 一 行 的 ”= ? 速 缓存 命中 ， 然 后 块 偏 移 选 


标记 位 必须 匹配 地 址 中 择 起 始 字 节 。 
的 标记 位 。 ps bp 位 i 
m—1 0 


标记 块 偏 移 
加 6-37 全 相 联 高 速 缓 存 中 的 行 匹 配 和 字 选 择 


因为 高 速 缓存 电路 必须 并 行 地 搜索 许多 相 匹 配 的 标记 ， 构 造 一 个 又 大 又 快 的 相 联 高 速 
缓存 很 困难 ， 而 且 很 昂贵 。 因 此 ， 全 相 联 高 速 缓存 只 适合 做 小 的 高 速 缓存 ， 例 如 虚拟 内 存 
系统 中 的 翻译 备用 缓冲 器 (TLB)， 它 缓存 页 表 项 ( 见 9. 6. 2 节 )。 

这 弹 练习 题 6. 12 ”下面 的 问题 能 帮助 你 加 强 理解 高 速 缓存 是 如 何 工 作 的 。 有 如 下 假设 : 

@ 内 存 是 字 节 了 寻 址 的 。 

@ 内 存 访问 的 是 1 字 节 的 字 ( 不 是 4 字 节 的 字 )。 
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9 地 址 的 宽度 为 13 位 。 
@ 高 速 缓存 是 2 路 组 相 联 的 (二 2)， 块 大 小 为 4 字 节 (B= 二 4)， 有 8 个 组 (S 二 8)。 
高 速 缓存 的 内 容 如 下 ， 所 有 的 数字 都 是 以 十 六 选 制 来 表示 的 : 
2 路 组 相 联 高 速 缓存 
| 和 和 | -和 _), 
奈 记 位 有 效 位 字 节 0 字 节 | 字 节 7 字 宰 
0 a 























行 0 
i 7 二 
09 86 30 3F 10 一 一 


45 38 





OP DD 一 


下 面 的 图 展示 的 是 地 址 格式 (每 个 小 方 框 一 个 位 )。 指 出 (在 图 中 标 出 ) 用 来 确定 下 
列 内 容 的 字段 : 
CO 高 速 缓 存 块 偏 移 
CI 高 速 缓存 组 索引 
CT 高速 缓存 标记 





弹 练习 题 6. 13 假设 一 个 程序 运行 在 练习 题 6-12 中 的 机 器 上 ， 它 引用 地 址 0x0E34 处 的 
1 个 字 节 的 字 。 指 出 访问 的 高 速 缓存 条 目 和 十 六 进 制 表示 的 返回 的 高 速 缓存 字 节 值 。 


指出 是 否 会 发 生 缓存 不 命中 。 如 果 会 出 现 缓存 不 命中 ， 用 “一 ”来 表示 “返回 的 高 速 
缓存 字 节 ”。 
A. 地 址 格式 (每 个 小 方 框 一 个 位 )， 
12 11 10 9 8 7 6 5 二 3 2 ] 0 
I OE EE TR i i -| 
B. 内 存 引 用 : 













0) | 0 
CD | 0 
CD | 
| 
加 的 高玉 站 字 闻 | 02 


记 s 练习 题 6. 14 ”对 于 存储 器 地 址 0x0DD5， 再 做 一 遍 练 习题 6. 13。 
A. 地 址 格式 (每 个 小 方 框 一 个 位 ) 





B， 内存 引 用 : 













CD | ao 
| 


这 到 练习 题 6. 15 ”对 于 内 存 地 址 0x1FE4， 再 做 一 遍 练 习题 6. 13。 
A. 地 址 格式 (每 个 小 方 框 一 个 位 ); 


高 


B. 内 存 引 用 : 













ECD | ax 
CT 
人 一 


返回 的 高 速 缓存 字 节 


晴 式 练习 题 6.16 对 于 练习 题 6. 12 中 的 高 速 缓存 ， 列 出 所 有 的 在 组 3 中 会 命中 的 十 六 进 
制 内 存 地 址 。 


6. 4.5 有 关 与 的 问题 


正如 我 们 看 到 的 ， 高 速 缓存 关于 读 的 操作 非常 简单 。 首 先 ， 在 高 速 绥 存 中 查找 所 需 字 
w 的 副本 。 如 果 命 中 ， 立 即 返回 字 w 给 CPU。 如 果 不 命中 ， 从 存储 器 层次 结构 中 较 低层 
中 取出 包含 字 w 的 块 ， 将 这 个 块 存储 到 某 个 高 速 绥 存 行 中 (可 能 会 驱逐 一 个 有 效 的 行 )， 然 
后 返回 字 也 。 

写 的 情况 就 要 复杂 一 些 了 。 假 设 我 们 要 写 一 个 已 经 缓存 了 的 字 记 ( 写 命中 ，write hit) 。 
在 高 速 缓存 更 新 了 它 的 w 的 副本 之 后 ， 怎 么 更 新 w 在 层次 结构 中 紧 接 着 低 一 层 中 的 副本 
呢 ? 最 简单 的 方法 ， 称 为 直 写 (write-through)， 就 是 立即 将 ww 的 高 速 缓存 块 写 回 到 紧 接着 
的 低 一 层 中 。 虽 然 简 单 ， 但 是 直 写 的 缺点 是 每 次 写 都 会 引起 总 线 流量 。 男 一 种 方法 ， 称 为 
写 回 (write-back)， 尽 可 能 地 推迟 更 新 ， 只 有 当 替 换算 法 要 驱逐 这 个 更 新 过 的 块 时 ， 才 把 
它 写 到 紧 接着 的 低 一 层 中 。 由 于 局 部 性 ， 写 回 能 显著 地 减少 总 线 流 量 , 但 是 它 的 缺点 是 增 
加 了 复杂 性 。 高 速 缓存 必须 为 每 个 高 速 缓存 行 维护 一 个 额外 的 修改 位 (dirty bit)， 表 明 这 
个 高 速 缓存 块 是 否 被 修改 过 。 

另 一 个 问题 是 如 何 处 理 写 不 命中 。 一 种 方法 ， 称 为 写 分 配 (wtite-allocate)， 加 载 相 应 
的 低 一 层 中 的 块 到 高 速 缓存 中 ， 然 后 更 新 这 个 高 速 缓存 块 。 写 分 配 试图 利用 写 的 空间 局 部 
性 ， 但 是 缺点 是 每 次 不 命中 都 会 导致 一 个 块 从 低 一 层 传送 到 高 速 缓 存 。 另 一 种 方法 ， 称 为 
非 写 分 配 (not-write-allocate)， 避 开 高 速 缓 存 ， 直 接 把 这 个 字 写 到 低 一 层 中 。 直 写 高 速 绥 
存 通 常 是 非 写 分 配 的 。 写 回 高 速 缓存 通常 是 写 分 配 的 。 

为 写 操作 优化 高 速 缓存 是 一 个 细致 而 困难 的 问题 ， 在 此 我 们 只 略 讲 皮 毛 。 细 节 随 系统 
的 不 同 而 不 同 ， 而 且 通 稼 是 私有 的 ， 文 档 记 录 不 详细 。 对 于 试图 编写 高 速 绥 人 存 比 较 友 好 的 
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程序 的 程序 员 来 说 ， 我 们 建议 在 心里 采用 一 个 使 用 写 回 和 写 分 配 的 高 速 缓存 的 模型 。 这 样 
建议 有 几 个 原因 。 通 常 ， 由 于 较 长 的 传送 时 间 ， 人 存储 器 层次 结构 中 较 低 层 的 缓存 更 可 能 使 
用 写 回 ， 而 不 是 直 写 。 例 如 ， 虚 拟 内 存 系 统 ( 用 主 存 作 为 存储 在 磁盘 上 的 块 的 缓存 ) 只 使 用 
写 回 。 但 是 由 于 逻辑 电路 密度 的 提高 ， 写 回 的 高 复杂 性 也 越 来 越 不 成 为 阻碍 了 ， 我 们 在 现 
代 系 统 的 所 有 层次 上 都 能 看 到 写 回 缓存 。 所 以 这 种 假设 符合 当前 的 趋势 。 假 设 使 用 写 回 写 
分 配方 法 的 另 一 个 原因 是 ， 它 与 处 理 读 的 方式 相对 称 ， 因 为 写 回 写 分配 试 图 利用 局 部 性 。 
因此 ， 我 们 可 以 在 高 层次 上 开发 我 们 的 程序 ， 展 示 良 好 的 空间 和 时 间 局 部 性 ， 而 不 是 试图 
为 某 一 个 存储 磊 系 统 进行 优化 。 


6. 4.6 一 个 真实 的 高 速 缓存 层次 结构 的 解剖 

到 目前 为 止 ， 我 们 一 直 假 设 高 速 缓存 只 保存 程序 数据 。 不 过 ， 实际 上 ， 高 速 缓 存 既 保 
存 数 据 ， 也 保存 指令 。 只 保存 指令 的 高 速 缓存 称 为 icache。 只 保存 程序 数据 的 高 速 缓存 称 
为 d-cache 。 既 保存 指令 又 包括 数据 的 高 速 缓存 称 为 统一 的 高 速 缓存 (unified cache)。 现 代 
处 理 器 包括 独立 的 i-cache 和 d-cache。 这 样 做 有 很 多 原因 。 有 两 个 独立 的 高 速 缓存， 处 理 
器 能 够 同时 读 一 个 指令 字 和 一 个 数据 字 。i-cache 通常 是 只 读 的 ， 因 此 比较 简单 。 通 常会 
对 不 同 的 访问 模式 来 优化 这 两 个 高 速 缓存 ， 它 们 可 以 有 不 同 的 块 大 小 ， 相 联 度 和 容量 。 使 
用 不 同 的 高 速 缓存 也 确保 了 数据 访问 不 会 与 指令 访问 形成 冲突 不 命中 ， 反 过 来 也 是 一 样 ， 
代价 就 是 可 能 会 引起 容量 不 命中 增加 。 

图 6-38 给 出 了 Intel Core 17 处 理 器 的 高 速 缓存 层次 结构 。 每 个 CPU 必 片 有 四 个 核 。 
每 个 核 有 自己 私有 的 Ll i-cache、L1 d-cache 和 L2 统一 的 高 速 缓存 。 所 有 的 核 共 享 片 上 
L3 统一 的 高 速 缓存 。 这 个 层次 结构 的 一 个 有 趣 的 特性 是 所 有 的 SRAM 高 速 缓存 存储 髓 部 
在 CPU 必 片 上 。 





图 6-38 Intel Core i7 的 高 速 缓存 层次 结构 
图 6-39 总 结 了 Core 17 高 速 缓 存 的 基本 特性 。 
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图 6-39 ”Core i7 高 速 缓存 层次 结构 的 特性 


6. 4. 7 高 速 缓存 参数 的 性 能 影响 
有 许多 指标 来 衡量 高 速 缓存 的 性 能 : 
e@ 不 命中 率 (miss rate)。 在 一 个 程序 执行 或 程序 的 一 部 分 执行 期 间 ， 内 存 引 用 不 命中 
的 比率 。 它 是 这 样 计 算 的 : 不 命中 数量 /引用 数量 。 

e@ 命中 率 (hit rate)。 命 中 的 内 存 引 用 比率 。 它 等 于 1 一 不 命中 率 。 

9 命中 时 间 (hit time)。 从 高 速 缓存 传送 一 个 字 到 CPU 所 需 的 时 间 ， 包 括 组 选择 、 

确认 和 字 选 择 的 时 间 。 对 于 Ll 高 速 缓存 来 说 ， egg ra 

@ 不 命中 处 罚 (miss penalty)。 由 于 不 命中 所 需要 的 额外 的 时 间 。L1l 不 命中 需要 从 1L2 

得 到 服务 的 处 罚 ， 通常 是 数 10 个 周期 ;从 L3 得 到 服务 的 处 罚 ，50 个 周期 ;， 从 主 
存 得 到 的 服务 的 处 罚 ，200 个 周期 。 

优化 高 速 缓存 的 成 本 和 性 能 的 折 中 是 一 项 很 精细 的 工作 ， 它 需要 在 现实 的 基准 程序 代码 上 
进行 大 量 的 模拟 ， 因 此 超出 了 我 们 讨论 的 范围 。 不 过 ， 还 是 可 以 认识 一 些 定 性 的 折 中 考量 的 。 

1. 高 速 缓存 大 小 的 影响 

一 方面 ， 较 大 的 高 速 缓存 可 能 会 提高 命中 率 。 另 一 方面 ， 使 大 存储 器 运行 得 更 快 总 是 
要 难 一 些 的 。 结 果 ， 较 大 的 高 速 缓存 可 能 会 增加 命中 时 间 。 这 解释 了 为 什么 Ll 高 速 缓存 
比 L2 高 速 缓存 小 ， 以 及 为 什么 L2 高 速 缓存 比 L3 高 速 缓存 小 。 

2. 块 大 小 的 影响 

大 的 块 有 利 有 疼 。 一 方面 ， 较 大 的 块 能 利用 程序 中 可 能 存在 的 空间 局 部 性 ， 帮 助 提高 
命中 率 。 不 过 ， 对 于 给 定 的 高 速 缓存 大 小 ， 块 越 大 就 意味 着 高 速 缓存 行 数 越 少 ， 这 会 损害 
时 间 局 部 性 比 空间 局 部 性 更 好 的 程序 中 的 命中 率 。 较 大 的 块 对 不 命中 处 罚 也 有 负面 影响 ， 
因为 块 越 大 ， 传 送 时 间 就 越 长 。 现 代 系 统 ( 如 Core 17) 会 折 中 使 高 速 缓存 块 包含 64 个 字 节 。 

3. 相 联 度 的 影响 

这 里 的 问题 是 参数 玉 选 择 的 影响 ，E 是 每 个 组 中 高 速 缓存 行 数 。 较 高 的 相 联 度 ( 也 就 
是 EE 的 值 较 大 ) 的 优点 是 降低 了 高 速 缓存 由 于 冲突 不 命中 出 现 拌 动 的 可 能 性 。 不 过 ， 较 高 
的 相 联 度 会 造成 较 高 的 成 本 。 较 高 的 相 联 度 实 现 起 来 很 昂贵 ， 而 且 很 难 使 之 速度 变 快 。 每 
一 行 需要 更 多 的 标记 位 ， 每 一 行 需要 额外 的 LRU 状态 位 和 额外 的 控制 逻辑 。 较 高 的 相 联 
度 会 增加 命中 时 间 ， 因 为 复杂 性 增加 了 ， 另 外， 还 会 增加 不 命中 人 处罚， 因为 选择 牺牲 行 的 
复杂 性 也 增加 了 。 

相 联 度 的 选择 最 终 变 成 了 命中 时 间 和 不 命中 处 罚 之 间 的 折 中 。 传 统 上 ， 努 力争 取 时 钟 
频率 的 高 性 能 系统 会 为 Ll 高 速 缓 存 选择 较 低 的 相 联 度 ( 这 里 的 不 命中 处 神 只 是 几 个 周期 )， 
而 在 不 命中 处 罚 比 较 高 的 较 低层 上 使 用 比较 小 的 相 联 度 。 例 如 ，Intel Core 17 系统 中 ，L1 
和 L2 高 速 缓存 是 8 路 组 相 联 的 ， 而 L3 高 速 缓存 是 16 路 组 相 联 的 。 

4. 写 策略 的 影响 

直 写 高 速 缓存 比较 容易 实现 ， 而 且 能 使 用 独立 于 高 速 缓存 的 写 缓冲 区 (write buffer)， 
用 来 更 新 内 存 。 此 外 ， 读 不 命中 开销 没 这 么 大 ， 因 为 它们 不 会 触发 内 存 写 。 另 一 方面 ， 写 
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回 高 速 缓存 引起 的 传送 比较 少 ， 它 允许 更 多 的 到 内 存 的 带宽 用 于 执行 DMA 的 IO 设备。 此 
外 ， 越 往 层 次 结构 下 面 走 ， 传 送 时 间 增 加 ， 减 少 传送 的 数量 就 变 得 更 加 重要 。 一 般 而 言 ， 
高 速 缓存 越 往 下 层 ， 越 可 能 使 用 写 回 而 不 是 直 写 。 


旁 注 | 高 速 缓存 行 、 组 和 块 有 什么 区 别 ? 

很 容易 混淆 高 速 缓存 行 、 组 和 块 之 间 的 区 别 。 让 我 们 来 回顾 一 下 这 些 概念 ， 确 保 概念 清 晰 : 

@ 块 是 一 个 国定 大 小 的 信息 包 ， 在 高 速 缓存 和 主 存 ( 或 下 一 层 高 速 缓 存 ) 之 间 来 回 传送 。 

@ 行 是 高 速 缓存 中 的 一 个 容器 ， 存 储 块 以 及 其 他 信息 (例如 有 效 位 和 标记 位 ) 。 

@ 组 是 一 个 或 多 个 行 的 集合 。 直 接 映射 高 速 缓存 中 的 组 只 由 一 行 组 成 。 组 相 联 和 全 

相 联 高 速 缓存 中 的 组 是 由 多 个 行 组 成 的 。 

在 直接 映射 高 速 缓存 中 ， 组 和 行 实际 上 是 等 价 的 。 不 过 ， 在 相 联 高 速 缓存 中 ， 组 和 
行 是 很 不 一 样 的 ， 这 两 个 词 不 能 互 换 使 用 。 

因为 一 行 总 是 存储 一 个 块 ， 本 语 “ 行 ”和 “ 块 ” 通 常 互 换 使 有 用。 例如， 系统 专家 总 
是 说 高 速 缓存 的 “ 行 大 小 ”"， 实 际 上 他 们 指 的 是 块 大 小 。 这 样 的 用 法 十 分 普遍 ， 只 要 你 
理解 块 和 行 之 间 的 区 别 ， 它 不 会 造成 任何 误会 。 


6.5 编 与 高速 缓存 友好 的 代码 

在 6. 2 节 中 ,我 们 介绍 了 局 部 性 的 思想 ， 而 且 定 性 地 谈 了 一 下 什么 会 具有 良好 的 局 部 
性 。 明 白 了 高 速 缓存 存储 右 是 如 何 工 作 的 ， 我 们 就 能 更 加 准确 一 些 了 。 局 部 性 比较 好 的 程 
序 更 容易 有 较 低 的 不 命中 率 ， 而 不 命中 率 较 低 的 程序 往往 比 不 命中 率 较 高 的 程序 运行 得 更 
快 。 因 此 ， 从 具有 良好 局 部 性 的 意义 上 来 说 ， 好 的 程序 员 总 是 应 该 试 着 去 编写 高 速 缓存 友 
好 (cache friendly) 的 人 代码。 下面 就 是 我 们 用 来 确保 代码 高 速 缓存 友好 的 基本 方法 。 

1) 让 最 常见 的 情况 运行 得 快 。 程 序 通 常 把 大 部 分 时 间 都 花 在 少量 的 核心 函数 上 ， 而 
这 些 晴 数 通 常 把 大 部 分 时 间 都 花 在 了 少量 循环 上 。 所 以 要 把 注意 力 集 中 在 核心 函数 里 的 循 
环 上 ， 而 忽略 其 他 部 分 。 

2) 尽量 减 小 每 个 循环 内 部 的 缓存 不 命中 数量 。 在 其 他 条 件 ( 例 如 加 载 和 存储 的 总 次 
数 ) 相 同 的 情况 下 ， 不 命中 率 较 低 的 循环 运行 得 更 快 。 

为 了 看 看 实际 上 这 是 怎么 工作 的 ， 考 虑 6. 2 节 中 的 函数 sumvec: 


int sumvec(int v[N]) 


int 4, SUm = IO; 


sum += Vv[i]; 
return sum; 


1 

2 

3 

4 

5 for (i = 0; i < N; i++) 

. 

8 
这 个 函数 高 速 缓存 友好 吗 ” 首 先 ， 注 意 对 于 局 部 变量 i 和 sum， 循 环 体 有 良好 的 时 间 局 部 
性 。 实 际 上 ， 因 为 它们 都 是 局 部 变量 ， 任 何 合理 的 优化 编译 器 都 会 把 它们 缓存 在 寄存 器 文 
件 中 ， 也 就 是 存储 器 层次 结构 的 最 高 层 中 。 现 在 考虑 一 下 对 和 疝 量 v 的 步 长 为 1 的 引用 。 一 
般 而 言 ， 如 果 一 个 高 速 缓存 的 块 大 小 为 B 字 节 ， 那 么 一 个 步 长 为 & 的 引用 模式 (这 里 上 是 
以 字 为 单位 的 ) 平 均 每 次 循环 迭代 会 有 min(1，(wordsize Xk)/B) 次 缓存 不 命中 。 当 有 =1 
时 ， 它 取 最 小 值 ， 所 以 对 v 的 步 长 为 1 的 引用 确实 是 高 速 缓存 友好 的 。 例 如 ， 假 设 v 是 块 
对 齐 的 ， 字 为 4 个 字 节 ， 高 速 缓 存 块 为 4 个 字 ， 而 高 速 缓存 初始 为 空 ( 冷 高 速 缓存 )。 然 
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后 ， 无 论 是 什么 样 的 高 速 缓存 结构 ， 对 v 的 引用 都 会 得 到 下 面 的 命中 和 不 命中 模式 : 


wt] 从 三 必 0 = 1 ji 2 水 4 9 =0 ja7 
访问 顺序 ， 命 中 四 或 不 命中 [m] | 1Iml | 2 四 | 3 四 | 4 四 | Stiml | 四 | 7 四 | sm 
在 这 个 例子 中 ， 对 v[0] 的 引用 会 不 命中 ， 而 相应 的 包含 V[0] ~ 一 v[3] 的 块 会 被 从 内 存 
加 载 到 高 速 缓存 中 。 因 此 ， 接 下 来 三 个 引用 都 会 命中 。 对 v[4] 的 引用 会 导致 不 命中 ， 而 
一 个 新 的 块 被 加 载 到 高 速 缓存 中 ， 接 下 来 的 三 个 引用 都 命中 ， 依 此 类 推 。 总 的 来 说 ， 四 个 
引用 中 ， 三 个 会 命中 ， 在 这 种 冷 缓存 的 情况 下 ， 这 是 我 们 所 能 做 到 的 最 好 的 情况 了 。 
总 之 ， 简 单 的 sumvec 示例 说 明了 两 个 关于 编写 高 速 缓存 友好 的 代码 的 重要 问题 : 
e 对 局 部 变量 的 反复 引用 是 好 的 ， 因 为 编译 器 能 够 将 它们 缓存 在 寄存 器 文件 中 (时 间 
局 部 性 ) 。 
e 步 长 为 1 的 引用 模式 是 好 的 ， 因 为 存储 需 层 次 结构 中 所 有 层次 上 的 缓存 都 是 将 数据 
存储 为 连续 的 块 (空间 局 部 性 )。 
在 对 多 维 数组 进行 操作 的 程序 中 ， 空 间 局 部 性 尤其 重要 。 例 如 ， 考 虑 6.2 节 中 的 
sumarrayrows 图 数 ， 它 按照 行 优 先 顺序 对 一 个 二 维 数组 的 元 素 求 和 : 


1 int sumarrayrows(int a[M] [N]) 

2 及 

3 int i, js sum = 0; 

4 

5 for (i = 0; i < M; i++) 

6 for (j] = 0; j < N; j++) 
7 sum += a[i] [j]; 

8 return sum; 

9 3} 


由 于 C 语 言 以 行 优先 顺序 存储 数组 ， 所 以 这 个 函数 中 的 内 循环 有 与 sumvec 一 样 好 的 
步 长 为 1 的 访问 模式 。 例 如 ， 假 设 我 们 对 这 个 高 速 缓存 做 与 对 sumvec 一 样 的 假设 。 那 么 
对 数组 a 的 引用 会 得 到 下 面 的 命中 和 不 命中 模式 : 


aril[jl j=0 j=!1 j=2 j=3 j=4 j=5 j=6 j=7 


me be wy Ye 


= 
三 
三 用 
| 








但 是 如 果 我 们 做 一 个 看 似 无 伤 大 雅 的 改变 一 一 交换 循环 的 次 序 ， 看 看 会 发 生 什 么 : 


1 int sumarraycols(int a[M][N]) 

2 

3 int 41, Jj], sum = 0; 

4 

5 for (j = 0; j < N; j++) 

" for 《二 = 0; 4.< M; i+t) 
7 sum += al[il [jj]; 

8 return sum; 

9 才 


在 这 种 情况 中 ， 我 们 是 一 列 一 列 而 不 是 一 行 一 行 地 扫描 数组 的 。 如 果 我 们 够 位 运 ， 整 个 数 
组 都 在 高 速 缓存 中 ， 那 么 我 们 也 会 有 相同 的 不 命中 率 1/4。 不 过 ， 如 果 数 组 比 高 速 缓存 要 
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大 (更 可 能 出 现 这 种 情况 )， 那 么 每 次 对 a[i] [j] 的 访问 都 会 不 命中 1! 


&[ 主 ] [3] 7=0 并 了 二 这 = j= j=5 j=6 j=7 


©O 


一 
四 
一 
一 
一 
外 
一 


LO hl 一 


i 
i 
i 
i 





较 高 的 不 命中 率 对 运行 时 间 可 以 有 显著 的 影响 。 例 如 ， 在 桌面 机 器 上 ，sumarray- 
rows 运行 速度 比 sumarraycols 快 25 倍 。 总 之 ， 程 序 员 应 该 注意 他 们 程序 中 的 局 部 性 ， 
试 着 编写 利用 局 部 性 的 程序 。 

苹 列 练 习题 6. 17 在 信号 处 理 和 科学 计算 的 应 用 中 ， 转 置 矩 阵 的 行 和 列 是 一 个 很 重要 的 
问题 。 从 局 部 性 的 角度 来 看 ， 它 也 很 有 趣 ， 因 为 它 的 引用 模式 既是 以 行为 主 (row- 
wise) 的 ， 也 是 以 列 为 主 (column-wise) 的 。 人 例如， 考虑 下 面 的 转 置 函数 : 


1 typedef int array[2] [2] ; 

2 

3 void transposel(array dst, array src) 
4 攻 

5 2 7 3; 

6 

7 for (i = 0; i < 2; i++) +{ 

8 for (j = 0; j < 2; j++) { 
9 dst[j] [i] = src[i] [j]; 
10 jl 

11 } 

12 


假设 在 一 台 具 有 如 下 属性 的 机 器 上 运行 这 段 代 码 : 

@ sizeof (int)==4。 

@ SrC 数 组 从 地 址 0 开始 ，dast 数 组 人 从 地 址 16( 十 进 制 ) 开 始 。 

@ 只 有 一 个 Ll 数据 高 速 缓 存 ， 它 是 直接 映射 的 、 直 写 和 写 分 配 的 ， 块 大 小 为 8 个 字 节 。 

@ 这 个 高 速 缓存 总 的 大 小 为 16 个 数据 字 节 ， 一 开始 是 空 的 。 

e@ 对 src 和 dst 数组 的 访问 分 别 是 读 和 写 不 命中 的 唯一 来 源 。 

A. 对 每 个 row 和 col， 指 明 对 src[row] [col] 和 dst[row] [col] 的 访问 是 命中 (h) 
还 是 不 命中 (m)。 例 如 ， 读 src[0] [0] 会 不 命中 ， 写 dst [0] [0] 也 不 命中 。 


dst 数 组 src 数 组 
列 0 列 1 
| 中 对 | | 3 WE OE 
_1 行 | | | _ 征 | | 


B. 对 于 一 个 大 小 为 32 数据 字 节 的 高 速 缓存 重复 这 个 练习 。 

蕊 式 练习 题 6. 18 最 近 一 个 很 成 功 的 游戏 SmAquarium 的 核心 就 是 一 个 紧密 循环 (tight 
loop)， 它 计算 256 个 海 滞 (algae) 的 平均 位 置 。 在 一 人 台 具 有 块 大 小 为 16 字 节 (B= 二 16)、 整 
个 大 小 为 1024 字 节 的 直接 映射 数据 缓存 的 机 器 上 测量 它 的 高 速 缓存 性 能 。 定 义 如 下 : 


1 struct algae_position 1 
这 int ZX? 

3 int y; 

4 }; 
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4 

6 struct algae_position grid[16] [16] ; 
7 int total_x = 0, total y = 0; 

8 Im 


@ sizeof (Int)==4。 
e@ grid 从 内 存 地 址 0 开始 。 
e@ 这 个 高 速 缓存 开始 时 是 空 的 。 
@ 唯一 的 内 存 访问 是 对 数组 grid 的 元 素 的 访问 。 交 量 i、j、total x 和 total y 存 
放 在 寄存 器 中 。 
确定 下 面 代 码 的 高 速 缓存 性 能 
for (i = 0; i < 16; i++) +{ 
for (j = 0; j < 16; j++) { 
total_x += grid[i][j] .x; 


for (i = 0; i < 16; i++) +{ 
for (j = 0; j < 16; j++) { 
total_y += grid[i] [j].y; 


J 


一 


} 

A. 读 总 数 是 多 少 ? 

B. 缓存 不 命中 的 读 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 


区 SR 练习 题 6. 19 给 定 练 习题 6. 18 的 假设 ， 确 定 下列 代 码 的 高 速 缓存 性 能 : 


for (i = 0; i < 16; i++){ 


I 

2 or. CF ss Ow 3 < 6s hy 4 

3 total x += gridlij) [i] .x: 
4 total_y += grid[j] [i] .y; 
5 

6 } 


A. 读 总 数 是 多 少 ? 

B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 

C. 不 命中 率 是 多 少 ? 

D, 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 

练习 题 6. 20 给 定 练习 题 6. 18 的 假设 ,确定 下 列 代 码 的 高 速 缓存 性 能 : 


for (i = 0; i < 16; i++){ 
for (j = 0; j < 16; j++) { 
total_x +4= gridli] [yj x; 
total_y += grid[i] [j] .y; 


Gin 大 WU 下) 一 


A, 读 总 数 是 多 少 ? 
B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 
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C. 不 命中 率 是 多 少 ? 
D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 


6.6 综合 : 高 速 缓存 对 程序 性 能 的 影响 


本 节 通 过 研究 高 速 缓存 对 运行 在 实际 机 器 上 的 程序 的 性 能 影响 ， 综 合 了 我 们 对 存储 天 
层次 结构 的 讨论 。 


6. 6. 1 存储 器 山 


一 个 程序 从 存储 系统 中 读数 据 的 速率 称 为 读 知 吐 量 (read throughput)， 或 者 有 时 称 为 
读 带 宽 (read bandwidth)。 如 果 一 个 程序 在 s 秒 的 时 间 段 内 读 个 字 节 ， 那 么 这 段 时 间 内 
的 读 否 吐 量 就 等 于 n/s， 通 常 以 兆 字 节 每 秒 (MB/s) 为 单位 。 

如 果 我 们 要 编写 一 个 程序 ， 它 从 一 个 紧密 程序 循环 (tight program loop) 中 发 出 一 系列 读 
请 求 ， 那 么 测量 出 的 读 吞 吐 量 能 让 我 们 看 到 对 于 这 个 读 序列 来 说 的 存储 系统 的 性 能 。 图 6-40 


code/mem/mountain/mountain.c 


1 long data[MAXELEMS] ; /* The global array we'll be traversing */ 
2 

3 /* test 一 Iterate over first "elems" elements of array "data" with 

4 A* stride of "stride", using 4 x 4 loop unrolling. 

5 */ 

6 int test(int elems, int stride) 

7 { 

8 long i, sx2 = stride*2, Sx3 = stride*3, sx4 = Stride*+r4; 

9 long acc0 = 0; accl = 0, acc2 = 0; acc3 = 0; 

10 long length = elems; 

11 long limit = length - sx4; 

12 

13 /* Combine 4 elements at a time */ 

14 for (i = 0; i < limit; i += sx4) 1 

15 acc0 = acc0 + datal[il]; 

16 accl = accl + data[i+stride] ; 

下， acc2 = acc2 + data[Li+sx2] ; 

18 acc3 = acc3 + data[i+sx3]; 

19 } 

20 

21 /* Finish any remaining elements */ 

22 for (; i < length; i+=stride) 1 

23 acc0 = acc0 + datal[il]; 

24 } 

25 return ((acc0 + accl) + (acc2 + acc3)); 
26 } 

27 
28 /* run - Run test(elems, stride) and return read throughput (MB/s). 
29 "size" is in bytes, "stride" is in array elements, and Mhz is 
30 水 CPU clock frequency in Mhz. 

31 */ 

32 double run(int size, int stride, double Mhz) 

33 二 

34 double cycles ; 

35 int elems = size / sizeof(dqouble) ; 

36 

37 test(elems, stride); /* Warm up the cache */ 
38 cycles = fcyc2(test, elems, stride, 0); /* Call test(elems,stride) */ 
39 return (size / stride) / (cycles / Mhz); /* Convert cycles to MB/s */ 


} 
0 code/mem/mountain/mountain.c 
图 6-40 ”测量 和 计算 读 否 吐 量 的 函数 。 我 们 可 以 通过 以 不 同 的 size( 对 应 于 时 间 局 部 性 ) 和 

stride( 对 应 于 空间 局 部 性 ) 的 值 来 调用 run 函数 ， 产 生 某 台 计 算 机 的 存储 器 山 
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给 出 了 一 对 测量 某 个 读 序 列 读 吞 吐 量 的 函数 。 

test 限 数 通过 以 步 长 stride 扫描 一 个 数组 的 头 elems 个 元 素来 产生 读 序 列 。 为 了 
提高 内 循环 中 可 用 的 并 行 性 ， 使 用 了 4X4 展开 ( 见 5.9 节 )。zrun 函数 是 一 个 包装 函数 ， 
调用 test 果 数 ， 并 返回 测量 出 的 读 吞 吐 量 。 第 37 行 对 test 困 数 的 调用 会 对 高 速 缓存 做 
暧 身 。 第 38 行 的 fcyc2 函数 以 参数 elems 调用 test 图 数 ， 并 估计 test 函数 的 运行 时 
名， 以 CPU 周期 为 单位 。 注 意 ，run 因数 的 参数 size 是 以 字 节 为 单位 的 ， 而 test 也 数 
对 应 的 参数 elems 是 以 数组 元 素 为 单位 的 。 另 外 ,注意 第 39 行将 MB/s 计算 为 10" 字 节 / 
秒 ， 而 不 是 2” 字 节 / 秒 。 

run 因数 的 参数 size 和 stride 允许 我 们 控制 产生 出 的 读 序列 的 时 间 和 空间 局 部 性 
程度 。size 的 值 越 小 ， 得 到 的 工作 集 越 小 ， 因 此 时 间 局 部 性 越 好 。strige 的 值 越 小 ， 得 
到 的 空间 局 部 性 越 好 。 如 果 我 们 反复 以 不 同 的 size 和 stride 值 调用 run 函数 ， 那 么 我 
们 就 能 得 到 一 个 读 帝 宽 的 时 间 和 空间 局 部 性 的 二 维 也 数 ， 称 为 存储 器 山 (memory moun- 
tain)| 112 | 

每 个 计算 机 都 有 表明 它 存储 器 系统 的 能 力 特色 的 唯一 的 存储 器 山 。 例 如 ， 图 6-41 展 
A Intel Core 17 ea 在 这 个 例子 中 ，size 从 16KB 变 到 128KB，striae 


从 1 变 到 12 个 元 素 ， 每 个 元 素 是 一 个 8 个 字 节 的 leng int。 
空间 局 部 性 
SN 
ee 






Core 17 Haswell 

2.1 GHz 

32 KB L1 高 速 缓存 
256 KB L2 高 速 缓存 
8MB L3 高 速 缓存 
64B 块 大 小 


10 000 


读 吞 吐 量 ( MB/s ) 


机 


14 的 
12 000 
7 


读 吞 吐 量 ( MB/s ) 


时 间 局 部 性 
山 疹 






RE 2M 
步 长 (x8 字 着) 9 Da pp 大 小 ( 字 节 ) 
128M 


图 6-41 存储 骨 山 。 展 示 了 读 乔 吐 量 ， 它 是 时 间 和 空间 局 部 性 的 函数 


这 座 Core 17 山 的 地 形 地 势 展现 了 一 个 很 丰富 的 结构 。 垂 直 于 大 小 轴 的 是 四 条 山 养 ， 
分 别 对 应 于 工作 集 完 全 在 Ll 高 速 缓存 、L2 高 速 缓存 、L3 高 速 缓 存 和 主 存 内 的 时 间 局 部 
性 区 域 。 注意，Ll1 山 峭 的 最 高 点 (那里 CPU 读 速 率 为 14GB/s) 与 主 存 山 次 的 最 低 点 (那里 
CPU 读 速 率 为 900MB/s) 之 间 的 差别 有 一 个 数量 级 。 

在 L2、L3 和 主 存 山 背 上 ， 随 着 步 长 的 增加 ， 有 一 个 空间 局 部 性 的 斜坡 ， 空 间 局 部 性 
下 降 。 注 意 ， 即 使 当 工作 集 太 大 ， 不 能 全 都 装 进 任何 一 个 高 速 缓存 时 ， 主 存 山 肴 的 最 高 点 
也 比 它 的 最 低 点 高 8 倍 。 因 此 ， 即 使 是 当 程序 的 时 间 局 部 性 很 差 时 ， 空 间 局 部 性 仍然 能 衬 
救 ， 并 且 是 非常 重要 的 。 
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有 一 条 特别 有 趣 的 平坦 的 山脊 线 ， 对 于 步 长 1 垂直 于 步 长 轴 ， 此 时 读 吞 吐 量 相对 保持 
不 变 ， 为 12GB/s， 即 使 工作 集 超出 了 L1 和 L2 的 大 小 。 这 显然 是 由 于 Core i7 存储 器 系统 
中 的 硬件 预 取 (prefetching) 机 制 ， 它 会 自动 地 识别 顺序 的 、 步 长 为 1 的 引用 模式 ， 试 图 在 
一 些 块 被 访问 之 前 ， 将 它们 取 到 高 速 缓 存 中 。 虽 然 文 档 里 没有 记录 这 种 预 取 算法 的 细节 ， 
但 是 从 存储 器 山 可 以 明显 地 看 到 这 个 算法 对 小 步 长 效果 最 好 一 一 这 也 是 代码 中 要 使 用 步 长 
为 1 的 顺序 访问 的 男 一 个 理由 。 

如 果 我 们 从 这 座 山 中 取出 一 个 片段 ， 保 持 步 长 为 常数 ， 如 图 6-42 所 示 ， 我 们 就 能 很 
清楚 地 看 到 高 速 缓存 的 大 小 和 时 间 局 部 性 对 性 能 的 影响 了 。 大 小 最 大 为 32KB 的 工作 集 完 
全 能 放 进 Ll d-cache 中 ， 因 此 ， 读 都 是 由 Ll 来 服务 的 ， 否 吐 量 保持 在 峰值 12GB/s 处 。 
大 小 最 大 为 256KB 的 工作 集 完全 能 放 进 统一 的 L2 高 速 缓 存 中 ， 对 于 大 小 最 大 为 8 M， 工 
作 集 完全 能 放 进 统一 的 L3 高 速 缓存 中 。 更 大 的 工作 集 大 小 主要 由 主 存 来 服务 。 


LI 高 速 
主 存 区 域 L3 高 速 缓存 区 域 L2 高 速 缓存 区 域 ”缓存 区 域 


读 吞 吐 量 ( MB/s ) 





图 6-42 存储 器 山中 时 间 局 部 性 的 山脊。 这 幅 图 展示 了 图 6-41 中 stride 王 8 时 的 一 个 片段 


L2 和 L3 高 速 缓存 区 域 最 左边 的 边缘 上 读 吞 吐 量 的 下 降 很 有 趣 ， 此 时 工作 集 大 小 为 
256KB 和 8MB， 等 于 对 应 的 高 速 缓存 的 大 小 。 为 什么 会 出 现 这 样 的 下 降 ， 还 不 是 完全 清 
楚 。 要 确认 的 唯一 方法 就 是 执行 一 个 详细 的 高 速 缓存 模拟 ， 但 是 这 些 下 降 很 有 可 能 是 与 其 
他 数据 和 代码 行 的 冲突 造成 的 。 

以 相反 的 方向 横 切 这 座 山 ， 保 持 工作 集 大 小 不 变 ， 我 们 从 中 能 看 到 空间 局 部 性 对 读 吞 吐 量 
的 影响 。 例 如 ， 图 6-43 展示 了 工作 集 大 小 固定 为 4MB 时 的 片段 。 这 个 片段 是 沿 厦 图 6-41 中 的 
L3 山脊 切 的 ， 这 里 ， 工 作 集 完 全 能 够 放 到 L3 高 速 缓存 中 ， 但 是 对 L2 高 速 缓存 来 说 太 大 了 。 

注意 随 着 步 长 从 1 个 字 增 长 到 8 个 字 ， 读 吞吐 量 是 如 何平 稳 地 下 降 的 。 在 山 的 这 个 区 
域 中 ，L2 中 的 读 不 命中 会 导致 一 个 块 从 L3 传送 到 L2。 后 面 在 L2 中 这 个 块 上 会 有 一 定数 
量 的 命中 ， 这 是 取决 于 步 长 的 。 随 着 步 长 的 增加 ，L2 不 命中 与 L2 命中 的 比值 也 增加 了 。 
因为 服务 不 命中 要 比 命中 更 慢 ， 所 以 读 吞 吐 量 也 下 降 了 。 一 旦 步 长 达到 了 8 个 字 ， 在 这 个 
系统 上 就 等 于 块 的 大 小 64 个 字 节 了 ， 每 个 读 请 求 在 L2 中 都 会 不 命中 ， 必 须 从 L3 服务 。 
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因此 ， 对 于 至 少 为 8 个 字 的 步 长 来 说 ， 读 否 吐 量 是 一 个 常数 速率 ， 是 由 从 L3 传送 高 速 缓 
存 块 到 L2 的 速率 决定 的 。 


读 吞 吐 量 ( MBAs ) 





sl S2 S3 S4 s5 SO S7 S8 S9 sl0 sll 
步 长 ( x8 字 节 ) 


图 6-43 一 个 空间 局 部 性 的 斜坡 。 这 幅 图 展示 了 图 6-41 中 大 小 二 4MB 时 的 一 个 片段 


总 结 一 下 我 们 对 存储 器 山 的 讨论 ， 存 储 器 系统 的 性 能 不 是 一 个 数字 就 能 描述 的 。 相 

反 ， 它 是 一 座 时 间 和 空间 局 部 性 的 山 ， 这 座 山 的 上 升 高 度 差别 可 以 超过 一 个 数量 级 。 明 智 

的 程序 员 会 试图 构造 他 们 的 程序 ， 使 得 程序 运行 在 山峰 而 不 是 低谷 。 目 标 就 是 利用 时 间 局 

部 性 ， 使 得 频繁 使 用 的 字 从 Ll 中 取出 ， 还 要 利用 空间 局 部 性 ， 使 得 尽 可 能 多 的 字 从 一 个 

L1 高 速 缓存 行 中 访问 到 。 

区 练习 题 6. 21 利用 图 6-41 中 的 存储 器 山 来 估计 从 L1 d-cache 中 读 一 个 8 字 节 的 字 所 
需要 的 时 间 ( 以 CPU 周期 为 单位 ) 。 


6.6.2 重新 排列 循环 以 提高 空间 局 部 性 
考虑 一 对 nXn 和 矩阵 相 乘 的 问题 : C= 二 AB。 例 如 ， 如 果 n= 二 2， 那 么 


| | 
Cot C22 U21 化 22 bs b2,» 
C11 = aiibn 十 Qiz bi 


Ci2 一 Cil0i2 十 a12b2s 


其 中 


C21 = Qa2ibi 十 azzpol 
C22 = a21b12 + a22b22 
矩阵 乘法 函数 通常 是 用 3 个 区 套 的 循环 来 实现 的 , 分别 用 索引 i、; 和 来 标识 。 如 来 改变 
循环 的 次 序 ， 对 代码 进行 一 些 其 他 的 小 改动 ， 我 们 就 能 得 到 矩阵 乘法 的 6 个 在 功能 上 等 价 
的 版 本 ， 如 图 6-44 所 示 。 每 个 版 本 都 以 它 循环 的 顺序 来 唯一 地 标识 。 
在 高 层次 来 看 ， 这 6 个 版 本 是 非常 相似 的 。 如 果 加 法 是 可 结合 的 ， 那 么 每 个 版 本 计算 
出 的 结果 完全 一 样 9 。 每 个 版 本 总 共 都 执行 O(n ) 个 操作 ， 而 加 法 和 乘法 的 数量 相同 。A 


日 ”正如 我 们 在 第 2 章 中 学 到 的 ， 浮 点 加 法 是 可 交换 的 ， 但 是 通常 是 不 可 结合 的 。 实 际 上 ， 如 果 和 矩阵 不 把 极 大 
的 数 和 极 小 的 数 混在 一 起 一 一 存储 物理 属性 的 矩阵 常常 这 样 ， 那 么 假设 浮 点 加 法 是 可 结合 的 也 是 合理 的 。 
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和 B 的 n’ 个 元 素 中 的 每 一 个 都 要 读 n 次 。 计 算 C 的 wi 个 元 素 中 的 每 一 个 都 要 对 n 个 值 求 
和 。 不 过 ， 如 果 分 析 最 里 层 循环 迭代 的 行为 ， 我们 发 现在 访问 数量 和 局 部 性 上 还 是 有 区 别 


的 。 


NN OQ WW ND 一 


为 了 分 析 ， 我 们 做 了 如 下 假设 : 


e 每 个 数组 都 是 一 个 double 类 型 的 nxXn 的 数组 ，sizeof (double)==8。 

e 只 有 一 个 高 速 缓存 ， 其 块 大 小 为 32 字 节 (了 一 32) 。 

e 数组 大 小 n 很 大 ， 以 至 于 和 矩阵 的 一 行 都 不 能 完全 污 进 Ll 高 速 缓存 中 。 

e 编译 器 将 局 部 变量 存储 到 寄存 器 中 ， 因 此 循环 内 对 局 部 变量 的 引用 不 需要 任何 加 载 


或 存储 指令 。 
code/mem/matmul/mm.c 
for (i = 0; i < n; i++) 
for (j = 0; j < n; j++) { 
sum = 0.0; 
for (k = 0; k < n; k++) 
sum += A[i] [k]*B[k] [jj]; 

CLi] [jj += sum; 


code/mem/matmulymm.c 
a) ijk 版 本 
code/mem/matmul/mm.c 
for Aj = 0 本 区 ns j++) 
for (Kk = 0; k < n; k++) { 
r = B[k][j]; 
for (i = 0; i < n;: i++) 
C[i] [j] += A[i] [k]*r; 


code/mem/matmul/mm.c 
c) 无 版 本 
code/mem/matmul/mm.c 
for (k = 0; k < n; k++) 
for (i = 03 1 < BH;: i++) { 
r = A[i] [k]; 
for (1 = 0; j < LT: jt) 
C[i] [j] += r*B[k] [j]; 


code/mem/matmul/mm.c 
e) 应 版 本 


图 6-44 


OO ID 一 NO WN 一 


OO nN 一 


code/mem/matmult/mm.c 
for (j = 0; j < n; j++) 
for (i = 0;: i < n;: i++) 1{ 
sum = 0.0; 
for (k = 0; k < n; k++) 
sum += A[i] [k]*B[k] [j]; 
CLi] [j] += sum; 


code/mem/matmul/mm.c 
b)j 认 版 本 
code/mem/matmul/mm.c 
for (k = 0; k < n; k++) 
for (3 = 0: j < n; 和 t+) { 
r = B[k] Dj] ; 
for (i = 0; i < n; i++) 
C[i][j] += A[i] [kj]*r; 


code/mem/matmul/mm.c 
d) 态 版 本 
code/mem/matmuly/mm.c 
for (i = 0; i < n; i++) 
for (k = 0; k < n; k++) { 
r = A[i][k]; 
for (j = 0; ] < n; +) 
CLij[j] += A[i] [kj]*r; 


code/mem/matmult/mm.c 


f) 放 版 本 


抢 阵 乘法 的 六 个 版 本 。 每 个 版 本 都 以 它 循环 的 顺序 来 唯一 地 标识 


图 6-45 总 结 了 我 们 对 内 循环 的 分 析 结 果 。 注 意 6 个 版 本 成 对 地 形成 了 3 个 等 价 类 ， 用 
内 循环 中 访问 的 矩阵 对 来 表示 每 个 类 。 例 如 ， 版 本 ijk 和 jik 是 类 AB 的 成 员 ， 因 为 它们 
在 最 内 层 的 循环 中 引用 的 是 矩阵 A 和 B( 而 不 是 C) 。 对 于 每 个 类 ， 我 们 统计 了 每 个 内 循环 
和 迭代 中 加 载 ( 读 ) 和 存储 ( 写 ) 的 数量 ， 每 次 循环 迭代 中 对 A、B 和 C 的 引用 在 高 速 缓存 中 不 
命中 的 数量 ， 以 及 每 次 迭代 缓存 不 命中 的 总 数 。 
类 AB 例 程 的 内 循环 (图 6-44a 和 图 6 一 44b) 以 步 长 1 扫描 数组 A 的 一 行 。 因 为 每 个 高 
速 缓存 块 保存 四 个 8 字 节 的 字 ，A 的 不 命中 率 是 每 次 迭代 不 命中 0. 25 次 。 男 一 方面 ， 内 
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循环 以 步 长 nn 扫描 数组 B 的 一 列 。 因 为 n 很 大 ,每 次 对 数组 B 的 访问 都 会 不 命中 ， 所 以 每 
次 迭代 总 共 会 有 1. 25 次 不 命中 。 


矩阵 乘法 版 本 人 
‘类 ) 加 载 次 数 | ”存储 次 数 ”| 4 未 命中 次 数 | 8 未 命中 次 数 | C 未 命中 次 数 | 未 命中 总 次 数 







Fon | 2 | 0 | 0 | 10 | om | i125 | 
NA&HUO | 2 | EE 
el 2 | 1 | 





图 6-45 ”矩阵 乘法 内 循环 的 分 析 。6 个 版 本 分 为 3 个 等 价 类 ， 用 内 循环 中 访问 的 数组 对 来 表示 


类 AC 例 程 的 内 循环 (图 6-44c 和 图 6-44d) 有 一 些 问题 。 每 次 迭代 执行 两 个 加 载 和 一 个 
存储 (相对 于 类 AB 例 程 ,它们 执行 2 个 加 载 而 没有 存储 )。 内 循环 以 步 长 n 扫描 A 和 C 的 
列 。 绪 果 是 每 次 加 载 都 会 不 命中 ， 所 以 每 次 迭代 总 共有 两 个 不 命中 。 注 意 ， 与 类 AB 例 程 
相 比 ， 交 换 循 环 降低 了 空间 局 部 性 。 

BC 例 程 (图 6-44e 和 图 6-44f) 展示 了 一 个 很 有 趣 的 折 中 : 使 用 了 两 个 加 载 和 一 个 存储 ， 
它们 比 AB 例 程 多 需要 一 个 内 存 操作 。 男 一 方面 ， 因 为 内 循环 以 步 长 为 1 的 访问 模式 按 行 
扫描 B 和 C， 每 次 迭代 每 个 数组 上 的 不 命中 率 只 有 0. 25 次 不 命中 ， 所 以 每 次 迭代 总 共有 
0. 50 个 不 命中 。 

图 6-46 小 结 了 一 个 Core i7 系统 上 和 矩阵 乘法 各 个 版 本 的 性 能 。 这 个 图 画 出 了 测量 出 的 
每 次 内 循环 迭代 所 需 的 CPU 周期 数 作 为 数组 大 小 (n) 的 函数 。 


100 





周期 / 迷 代 
三 





S0 100 150 200 250 300 350 400 450 500 $50 600 650 700 
数组 大 小 (nn) 


图 6-46 ”Core i7 矩阵 乘法 性 能 


对 于 这 幅 图 有 很 多 有 意思 的 地 方 值 得 注意 : 

e 对 于 大 的 好 值 ， 即 使 每 个 版 本 都 执行 相同 数量 的 浮 点 算术 操作 ， 最 快 的 版 本 比 最 慢 
的 版 本 运行 得 快 几乎 40 倍 。 

e 每 次 迭代 内 存 引用 和 不 命中 数量 都 相同 的 一 对 版 本 ， 有 大 致 相同 的 测量 性 能 。 

e 内 存 行为 最 糟糕 的 两 个 版 本 ， 就 每 次 迭代 的 访问 数量 和 不 命中 数量 而 言 ， 明 显 地 比 
其 他 4 个 版 本 运行 得 慢 ， 其 他 4 个 版 本 有 较 少 的 不 命中 次 数 或 者 较 少 的 访问 次 数 ， 
或 者 羔 而 有 之 。 

e 在 这 个 情况 中 ,与 内 存 访问 总 数 相 比 ， 不 命中 率 是 一 个 更 好 的 性 能 预测 指标 。 例 
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如 ， 即 使 类 BC 例 程 (2 个 加 载 和 1 个 存储 ) 在 内 循环 中 比 类 AB 例 程 (2 个 加 载 ) 执 行 
更 多 的 内 存 引用 ， 类 BC 例 程 (每 次 迭代 有 0. 5 个 不 命中 ) 比 类 AB 例 程 (每 次 迭代 有 
1. 25 个 不 命中 ) 性 能 还 是 要 好 很 多 。 

e 对 于 大 的 n 值 ， 最 快 的 一 对 版 本 (ki) 和 ikj ) 的 性 能 保持 不 变 。 虽然 这 个 数组 远大 于 
任何 SRAM 高 速 缓 存 存储 右 ， 但 预 取 硬 件 足 够 聪明 ， 能 够 认 出 步 长 为 1 的 访问 模 
式 ， 而 且 速 度 足 够 快 能 够 跟 上 内 循环 中 的 内 存 访问 。 这 是 设计 这 个 内 存 系统 的 Intel 
的 工程 师 所 做 的 一 项 极 好 成 就 ， 回 程序 员 提 供 了 甚至 更 多 的 葡 励 ， 豆 励 他 们 开发 出 
具有 良好 空间 局 部 性 的 程序 ， 


EEEEDENE Te .jel@j Ne 和 使 用 分 块 来 提高 时 间 局 部 性 

有 一 项 很 有 趣 的 技术 ， 称 为 分 块 (blocking)， 它 可 以 提高 内 循环 的 时 间 局 部 性 。 分 
块 的 大 致 思想 是 将 一 个 程序 中 的 数据 结构 组 织 成 的 大 的 片 (chunk)， 称 为 块 (block)。 
(在 这 个 上 下 文中 ，“ 块 ” 指 的 是 一 个 应 用 级 的 数据 组 块 ， 而 不 是 高 速 缓存 块 。) 这 样 构造 
程序 ， 使 得 能 够 将 一 个 片 加 载 到 L1 高 速 缓存 中 ， 并 在 这 个 片 中 进行 所 需 的 所 有 的 读 和 
写 ， 然 后 丢掉 这 个 片 ， 加 载 下 一 个 片 ， 依 此 类 推 。 

与 为 提高 空间 局 部 性 所 做 的 简单 循环 变换 不 同 ， 分 块 使 得 代码 更 难 阅 读 和 理解 。 由 
于 这 个 原因 ， 它 最 适合 于 优化 编译 器 或 者 频繁 执行 的 库 函 数 。 由 于 Core 17 有 完善 的 预 
取 硬 件 ， 分 块 不 会 提高 矩阵 乘 在 Core 17 上 的 性 能 。 不 过 ， 学 习 和 理解 这 项 技术 还 是 很 有 
趣 的 ， 因 为 它 是 一 个 通用 的 概念 ， 可 以 在 一 些 没 有 预 取 的 系统 上 获得 极 大 的 性 能 收益 。 


6. 6.3 在 程序 中 利用 局 部 性 


正如 我 们 看 到 的 ， 存 储 系统 被 组 织 成 一 个 存储 设备 的 层次 结构 ， 较 小 、 较 快 的 设备 靠 
近 顶 部 ， 较 大 、 较 慢 的 设备 靠近 底部 。 由 于 采用 了 这 种 层次 结构 ， 程 序 访问 和 存储 位 置 的 实 
际 速率 不 是 一 个 数字 能 描述 的 。 相 反 ， 它 是 一 个 变化 很 大 的 程序 局 部 性 的 函数 (我 们 称 之 
为 存储 希 山 ) ， 变 化 可 以 有 几 个 数量 级 。 有 良好 局 部 性 的 程序 从 快速 的 高 速 缓存 存储 需 中 
访问 它 的 大 部 分 数据 。 局 部 性 差 的 程序 从 相对 慢 速 的 DRAM 主 存 中 访问 它 的 大 部 分 数据 。 
理解 存储 髓 层次 结构 本 质 的 程序 员 能 够 利用 这 些 知识 编写 出 更 有 效 的 程序 ， 无论 具 体 
的 存储 系统 结构 是 怎样 的 。 特 别 地 ， 我 们 推荐 下 列 技术 : 
e 将 你 的 注意 力 集中 在 内 循环 上 ， 大 部 分 计算 和 内 存 访 问 都 发 生 在 这 里 。 
e 通过 按照 数据 对 象 存储 在 内 存 中 的 顺序 、 以 步 长 为 1 的 来 读数 据 ， 从 而 使 得 你 程序 
中 的 空间 局 部 性 最 大 。 
e 一 旦 从 存储 上 希 中 谈 和 人 了 一 个 数据 对 象 ， 就 尽 可 能 多 地 使 用 它 ， 从 而 使 得 程序 中 的 时 
间 局 部 性 最 大 。 


6.7 小 结 


基本 存储 技术 包括 随机 存储 器 (RAM)、 非 易 失 性 存储 右 (ROM) 和 人 磁盘。RAM 有 两 种 基本 类 型 。 静 
态 RAM(SRAM) 快 一 些 , 但 是 也 贵 一 些 ,， 它 既 可 以 用 做 CPU 芯片 上 的 高 速 缓存 ， 也 可 以 用 做 芯片 下 的 
高 速 缓存 。 动 态 RAM(DRAM) 慢 一 点 ， 也 便宜 一 些 ， 用 做 主 存 和 图 形 帧 缓冲 区 。 即 使 是 在 关 电 的 时 候 ， 
ROM 也 能 保持 它们 的 信息 ， 可 以 用 来 存储 固件 。 旋 转 磁盘 是 机 械 的 非 易 失 性 存储 设备 ， 以 每 个 位 很 低 的 
成 本 保存 大 量 的 数据 ， 但 是 其 访问 时 间 比 DRAM 长 得 多 。 固 态 硬 盘 (SSD) 基 于 非 易 失 性 的 闪存 ， 对 某 些 
应 用 来 说 ， 越 来 越 成 为 旋转 磁盘 的 具有 吸引 力 的 替代 产品 。 

一 般 而 言 ， 较 快 的 存储 技术 每 个 位 会 更 贵 ， 而 且 容 量 更 小 。 这 些 技术 的 价格 和 性 能 属性 正在 以 显著 
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不 同 的 速度 变化 着 。 特 别 地 ，DRAM 和 磁盘 访问 时 间 远 远大 于 CPU 周期 时 间 。 系 统 通 过 将 存储 器 组 织 
成 存储 设备 的 层次 结构 来 弥补 这 些 差异 ， 在 这 个 层次 结构 中 ， 较 小 、 较 快 的 设备 在 顶部 ， 较 大 、 较 慢 的 
设备 在 底部 。 因 为 编写 良好 的 程序 有 好 的 局 部 性 ， 大 多 数 数 据 都 可 以 从 较 高 层 得 到 服务 ， 结果 就 是 存储 
系统 能 以 较 高 层 的 速度 运行 ， 但 却 有 较 低 层 的 成 本 和 容量 。 

程序 员 可 以 通过 编写 有 良好 空间 和 时 间 局 部 性 的 程序 来 显著 地 改进 程序 的 运行 时 间 。 利 用 基于 
SRAM 的 高 速 缓存 存储 器 特别 重要 。 主 要 从 高 速 缓存 取 数 据 的 程序 能 比 主要 从 内 存 取 数据 的 程序 运行 得 
快 得 多 。 
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Wilkes 写 了 第 一 篇 关于 高 速 缓存 存储 器 的 论文 L117j。Smith 写 了 一 篇 经 典 的 综述 [L104]。Przybylski 
编写 了 一 本 关于 高 速 缓存 设计 的 权威 著作 [86 ]。 Hennessy 和 Patterson 提供 了 对 高 速 缓存 设计 问题 的 全 
面 讨论 [46 ]。Levinthal 写 了 一 篇 有 关 Intel Core i7 的 全 面 性 能 指南 L701]。 

Stricker 在 L112j 中 介绍 了 存储 器 山 的 思想 .作为 对 存储 器 系统 的 全 面 描述 ,并且 在 后 来 的 工作 描述 
中 非 正 式 地 提出 了 术语 “存储 大山”。 编 译 带 研究 者 通过 自动 执行 我 们 在 6. 6 节 中 讨论 过 的 那些 手工 代码 
转换 来 增加 局 部 性 L22，32，66，72，79，87，119]。Carter 和 他 的 同事 们 提出 了 一 个 高 速 缓存 可 知晓 的 
内 存 控 制 器 (cache-aware memory controller)| 17]。 其 他 的 研究 者 开发 出 了 高 速 缓存 不 知晓 的 (cache obliv- 
ious) 算 法 ， 它 被 设计 用 来 在 不 明确 知道 底层 高 速 缓 存 存 储 器 结构 的 情况 下 也 能 运行 得 很 好 L30，38，39， 
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关于 构造 和 使 用 磁盘 存储 设备 也 有 大 量 的 论著 。 许 多 存储 技术 研究 者 找寻 方法 ， 将 单个 的 磁盘 集合 
成 更 大 、 更 健壮 和 更 安全 的 存储 池 [20，40，41，83，121j。 其 他 研究 者 找寻 利用 高 速 缓存 和 局 部 性 来 改 
进 磁盘 访问 性 能 的 方法 L12，21]j。 像 Exokernel 这 样 的 系统 提供 了 更 多 的 对 磁盘 和 存储 器 资源 的 用 户 级 
控制 L57]。 像 安德鲁 文件 系统 L78j 和 Codal 94j 这 样 的 系统 ， 将 存储 器 层次 结构 扩展 到 了 计算 机 网 络 和 移 
动笔 记 本 电脑 。Schindler 和 Ganger 开发 了 一 个 有 趣 的 工具 ， 它 能 自动 描述 SCSI 磁盘 驱动 占 的 构造 和 性 
能 L95]j。 研 究 者 正在 研究 构造 和 使 用 基于 闪存 的 SSD 的 技术 [8，81j]。 


家 寿 作 业 


** 6. 22 假设 要 求 你 设计 一 个 每 条 磁道 位 数 固定 的 旋转 磁盘 。 你 知道 每 条 磁道 的 位 数 是 由 最 里 层 磁 道 的 周 
长 决定 的 ， 可 以 假设 它 就 是 中 间 那 个 圆 洞 的 周 长 。 因 此 ， 如 果 你 把 磁盘 中 间 的 洞 做 得 大 一 点 ,每 
条 磁道 的 位 数 就 会 增 大 , 但 是 总 的 磁道 数 会 减少 。 如 果 用 7 来 表示 盘面 的 半径 ，x，r 表示 圆润 的 
半径 。 那 么 zx 取 什 么 值 能 使 这 个 磁盘 的 容量 最 大 ? 

* 6. 23 估计 访问 下 面 这 个 磁盘 上 扇 区 的 平均 时 间 ( 以 ms 为 单位 ): 


800 


** 6.24 假设 一 个 2MB 的 文件 ,由 512 个 字 节 的 导 辑 块 组 成 ,存储 在 具有 下 述 特性 的 磁盘 驱动 器 上 : 









* 6.25 


*6. 26 


* 60.27 


** 0. 28 


** 日 .29 








全 

ar 

Ee 
对 于 下 面 的 每 种 情况 ,假设 程序 顺序 地 读 文件 的 迎 辑 块 ， 一 个 接 一 个 ， 并且 对 第 一 个 块 定位 

该 / 写 头 的 时 间 等 于 TT ows 秆 计 prsii6s 

A. 最 好 情况 : 估计 在 所 有 可 能 的 逻辑 块 到 磁盘 扇 区 的 映射 上 读 该 文件 所 需要 的 最 优 时 间 ( 以 ms 
为 单位 ) 。 

B. 随机 情况 : 估计 如 果 块 是 随机 映射 到 磁盘 扇 区 上 时 读 该 文件 所 需要 的 时 间 ( 以 ms 为 单位 ) 。 

下 面 的 表 给 出 了 一 些 不 同 的 高 速 缓 存 的 参数 。 对 于 每 个 高 速 缓存 ， 填 写 出 表 中 缺失 的 字段 。 记 住 

m 是 物理 地 址 的 位 数 ，C 是 高 速 缓 存 大 小 (数据 字 节 数 )，B 是 以 字 为 单位 的 块 大 小 ，E 是 相 联 

度 ，S 是 高 速 缓存 组 数 ,，t 是 标记 位 数 ，;s 是 组 索引 位 数 ， 而 5 是 块 偏 移 位 数 。 








下 面 的 表 给 出 了 一 些 不 同 的 高 速 缓存 的 参数 ,你 的 任务 是 填写 出 表 中 缺失 的 字段 。 记 住 m 是 物理 
地 址 的 位 数 ，C 是 高 速 缓存 大 小 (数据 字 节 数 )，B 是 以 字 节 为 单位 的 块 大 小 ， 玉 是 相 联 度 ，S 是 高 
速 缓存 组 数 ,，t 是 标记 位 数 ，s 是 组 索引 位 数 ， 而 2 是 块 侦 移 位 数 。 





这 个 问题 是 关于 练习 题 6. 12 中 的 高 速 缓存 的 。 

A. 列 出 所 有 会 在 组 1 中 命中 的 十 六 进 制 内 存 地 址 。 

B. 列 出 所 有 会 在 组 6 中 命中 的 十 六 进 制 内 存 地 址 。 

这 个 问题 是 关于 练习 题 6. 12 中 的 高 速 缓存 的 。 

A. 列 出 所 有 会 在 组 2 中 命中 的 十 六 进 制 内 存 地 址 。 

B. 列 出 所 有 会 在 组 4 中 命中 的 十 六 进 制 内 存 地 址 。 

C. 列 出 所 有 会 在 组 5 中 命中 的 十 六 进 制 内 存 地 址 。 

D. 列 出 所 有 会 在 组 7 中 命中 的 十 六 进 制 内 存 地 址 。 

假设 我 们 有 一 个 具有 如 下 属性 的 系统 : 

@ 内 存 是 字 节 寻 址 的 。 

@ 内 存 访问 是 对 1 字 节 字 的 (而 不 是 4 字 节 字 )。 

@ 地 址 宽 12 位 。 

@ 高 速 缓 存 是 两 路 组 相 联 的 (EE=2)， 块 大 小 为 4 字 节 (B=4)， 有 4 个 组 (S=4)， 
高 速 缓存 的 内 容 如 下 ， 所 有 的 地 址 、 标 记 和 值 都 以 十 六 进 制 表示 : 
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组 索引 标记 “有 效 位 。 字 节 0 站] 字 ; 放 2 字 节 3 





A. 下 面 的 图 给 出 了 一 个 地 址 的 格式 (每 个 小 框 表示 一 位 )。 指 出 用 来 确定 下 列 信息 的 字段 (在 图 中 
标号 出 来 ) : 
CO 高 速 缓存 块 偏 移 
CI 高 速 缓存 组 索引 
高 速 缓存 标记 
小 证 页 有 和 





B. 对 于 下 面 每 个 内 存 访 问 ， 当 它们 是 按照 列 出 来 的 顺序 执行 时 ， 指 出 是 高 速 缓存 命中 还 是 不 命 
中 。 如 果 可 以 从 高 速 缓存 中 的 信息 推断 出 来 ， 请 也 给 出 读 出 的 值 。 





假设 我 们 有 一 个 具有 如 下 属性 的 系统 : 
@ 内 存 是 字 节 寻 址 的 。 
@ 内 存 访问 是 对 1 字 节 字 的 (而 不 是 4 字 节 字 )。 
9 地 址 宽 13 位 。 
@ 高 速 缓存 是 四 路 组 相 联 的 (E= 二 4)， 块 大 小 为 4 字 节 (B= 二 4)， 有 8 个 组 (S==8)。 
考虑 下 面 的 高 速 缓存 状态 。 所 有 的 地 址 、 标 记 和 值 都 以 十 六 进 制 表示 。 每 组 有 4 行 ， 索引 列 
包含 组 索引 。 标 记 列 包含 每 一 行 的 标记 值 。V 列 包含 每 一 行 的 有 效 位 。 字 节 0 一 3 列 包 含 每 一 行 的 
数据 ， 标 号 从 左 向 右 ， 字 节 0 在 左边 。 


4 路 组 相 联 高 速 缓存 


索引 | 标记 V ” 字 节 0 一 3 | 标记 V 字 节 0~3 | 标记 六 字 节 0~3 | 标记 VV 字 节 0 一 3 
1 





PPPPFPOOPPDP 


1 
0 
此 
1 
1 
0 
1 
0 


A. 这 个 高 速 缓存 的 大 小 (C) 是 多 少 字 节 ? 

B. 下 面 的 图 给 出 了 一 个 地 址 的 格式 (每 个 小 框 表示 一 位 )。 指 出 用 来 确定 下 列 信息 的 字段 (在 图 中 
标号 出 来 ): 
CO 高 速 缓存 块 偏 移 
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Cl 高 速 缓存 组 索引 
CT 高 速 缓存 标记 
2 11 1 3 & 7 专 ”5 4 名 2 1 v0 


“* 6. 31 假设 程序 使 用 作业 6. 30 中 的 高 速 缓存 ， 引 用 位 于 地 址 0x071A 处 的 1 字 节 字 。 用 十 六 进 制 表 示 出 
它 所 访问 的 高 速 缓存 条 目 ， 以 及 返回 的 高 速 缓存 字 节 值 。 指 明 是 否 发 生 了 高 速 缓存 不 命中 。 如 果 
有 高 速 缓存 不 命中 ， 对 于 “返回 的 高 速 缓存 字 廊 ”输入 “一 ”。 提 示 : 注意 那些 有 效 位 ! 
A. 地 址 格式 (每 个 小 框 表示 一 位 ): 
让 


B. 内 存 引 用 : 


TCD 
这 组 3 CD | or 


高 速 缓存 标记 (CT) 
高 速 缓存 命中 ? (是 否 ) | | 
返回 的 高 速 缓存 字 节 


** 6. 32 ”对 于 内 存 地 址 0x16E8 重复 作业 6. 31。 
A. 地 址 格式 (每 个 小 框 表示 一 位 ): 





B. 内 存 引 用 : 






| 


** 6. 33 对 于 作业 6. 30 中 的 高 速 缓存 ， 列 出 会 在 组 2 中 命中 的 8 个 内 存 地 址 (以 十 六 进 制 表示 )， 
** 6.34 考虑 下 面 的 矩阵 转 置 消 数 : 








typedef int array[4] [4]; 


] 

2 

3 void transpose2(array dst, array src) 
4 攻 

§ 1 宇 7 

6 

7 for (i #* OQ 1 Cs TF) 4 

8 for (j = 0 j < 4; j++) { 
9 dst [ij] iY = .srcEi] [js 
10 } 

11 } 

12 3} 


假设 这 段 代 码 运行 在 一 台 具 有 如 下 属性 的 机 器 上 : 


@ sizeof (Int)==4。 
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@ 数组 src 从 地 址 0 开始， 而 数组 dst 从 地 址 64 开始 (十 进 制 )。 

@ 只 有 一 个 L1 数据 高 速 缓存 ， 它 是 直接 映射 、 直 写 、 写 分 配 的 ， 块 大 小 为 16 字 节 。 

@ 这 个 高 速 缓 存 总 共有 32 个 数据 字 节 ， 初 始 为 空 。 

@ 对 src 和 dst 数组 的 访问 分 别 是 读 和 写 不 命中 的 唯一 来 源 。 

对 于 每 个 row 和 col1， 指 明 对 src[row] [col] 和 dst [row] [col] 的 访问 是 命中 (h) 还 是 不 命中 (m)。 
例如 ， 读 src[0] [0] 会 不 命中 ， 而 写 dst [0] [0] 也 会 不 命中 。 


dst 数 组 src 数 组 
列 0 列 1] 列 2 列 3 列 0 列 ] 列 2 列 3 
行 0 行 0 
行 1 行 了 
行 2 行 2 
行 3 行 3 
** 6.35 对 于 一 个 总 大 小 为 128 数据 字 节 的 高 速 缓存 ， 重 复 练 习题 6. 34。 
dst 数 组 src 数 组 
列 0 ” 列 ] 列 2 列 3 列 0 列 1 列 2 列 3 
行 0 行 0 
行 1 行 1 
行 2 行 2 
行 3 行 3 


**6. 36 这 道 题 测试 你 预测 C 语言 代码 的 高 速 缓存 行为 的 能 力 。 对 下 面 这 段 代 码 进行 分 析 : 
int x[2] [128] ; 
bi 
int sum = 0; 
for (i = 0; 1 < 128; i++y { 
sum += x[0] [i] * x[1] [i]; 
} 
假设 我 们 在 下 列 条 件 下 执行 这 段 代 码 : 
@ sijzeof (int)==4, 
@ 数组 x 从 内 存 地 址 0x0 开始 ， 按 照 行 优先 顺序 存储 。 
@ 在 下 面 每 种 情况 中 ， 高 速 缓存 最 开始 时 都 是 空 的 。 
@ 唯一 的 内 存 访问 是 对 数组 x 的 条 目 进行 访问 。 其 他 所 有 的 变量 都 存储 在 寄存 器 中 。 
给 定 这 些 假 设 , 估计 下 列 情况 中 的 不 命中 率 : 
A. 情况 1: 假设 高 速 缓存 是 512 字 节 ， 直 接 映 射 ， 高 速 缓 存 块 大 小 为 16 字 节 。 不 命中 率 是 多 少 ? 
B. 情况 2: 如 果 我 们 把 高 速 缓存 的 大 小 翻 倍 到 1024 字 节 ， 不 命中 率 是 多 少 ? 
C. 情况 3: 现在 假设 高 速 缓存 是 512 字 节 ， 两 路 组 相 联 ， 使 用 LRU 替换 策略 ， 高速 缓 存 块 大 小 为 
16 字 节 。 不 命中 率 是 多 少 ? 
D. 对 于 情况 3， 更 大 的 高 速 缓存 大 小 会 帮助 降低 不 命中 率 吗 ?为 什么 能 或 者 为 什么 不 能 ? 
E. 对 于 情况 3， 更 大 的 块 大 小 会 帮助 降低 不 命中 率 吗 ? 为 什么 能 或 者 为 什么 不 能 ? 
“*6.37 这 道 题 也 是 测试 你 分 析 C 语言 代码 的 高 速 缓存 行为 的 能 力 。 假 设 我 们 在 下 列 条 件 下 执行 图 6-47 中 
的 3 个 求 和 函数 : 
@@ Sizeof (Int)==4。 
@ 机 器 有 4KB 直接 映射 的 高 速 缓存 ， 块 大 小 为 16 字 节 。 
e 在 两 个 循环 中 ， 代 码 只 对 数组 数据 进行 内 存 访 问 。 循 环 索 引 和 值 sum 都 存放 在 寄存 天 中。 
@ 数组 a 从 内 存 地 址 0x08000000 处 开始 存储 。 
对 于 N= 二 64 和 N=60 两 种 情况 ， 在 表 中 填写 它们 大 概 的 高 速 缓存 不 命中 率 。 


“CA WW I 
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typedef int array_t[N] [N] ; 


int SumA(array 七 a) 
{ 
int i，j; 
int sum = 0; 
for (i = 0; < N; 14+) 
for (j = 0; j < N; j++) A 
sum += al[i][j]; 


‘DO 0 NO WW i NN 一 


return sum; 


sumB(array_t a) 


int i, j; 
int sum = 0; 
for (j = 0; j < N; j++) 
for (i = 0; i < N; i++) { 
sum += al[i] [j]; 
} 


return sum; 


sumC(array._t a) 


有 ， 才 : 
int sum = 0; 
for (j = 0; j《Ni j+=2) 
for (i = 0; i < N; i+=2) 1{ 
sum += (a[i] [j] + a[i+i] [j] 
二 [于] [j 让 二 和 起 [4] [j 丰 二] 》3 





图 6-47 作业 6. 37 中 引用 的 函数 


* 6. 38 3M 决定 在 日 纸 上 印 黄 方 格 ， 做 成 PostIt 小 贴纸 。 在 打印 过 程 中 ， 他 们 需要 设置 方 格 中 每 个 点 的 
CMYK( 蓝 色 ， 红 色 ， 黄 色 ， 黑 色 ) 值 。3M 雇佣 你 判定 下 面 算法 在 一 个 具有 2048 字 节 、 直 接 映 射 、 
块 大 小 为 32 字 节 的 数据 高 速 缓存 上 的 效率 。 有 如 下 定义 : 


struct point_color 并 
Ln, G3 
让 各 刻 : i 
int 了 ; 
int kK; 
J， 


struct point_color square[16] [16]; 
4 Vs 


有 如 下 假设 : 


‘OO DB NO WW 人 WN 一 
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@ sizeof (Int) ==4。 

@ square 起 始 于 内 存 地 址 0。 

@ 高 速 缓 存 初始 为 空 。 

@ 唯一 的 内 存 访 问 是 对 于 square 数组 中 的 元 素 。 变 量 i 和 jj 存放 在 寄存 器 中 。 
确定 下 列 代 码 的 高 速 缓 存 性 能 : 


1 for (i = 0; i < 16; i++){ 

2 for {i = 0; 3 < WB Jj A 
3 square[i][j].¢ = 0; 

4 square[i] [jj .m = 0; 

5 square[i][j].y = 1; 

6 square[i][j].k = 0; 

7 

8 


} 


A. 写 总 数 是 多 少 ? 
B. 在 高 速 缓 存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
"6.39 给 定 作 业 6. 38 中 的 假设 ,确定 下 列 代 码 的 高 速 缓存 性 能 : 


for (i = 0; i < 16; i++){ 


] 

2 for {1 = /05 1 < 6; jt) 4 
3 square[j] [i].c = 0; 

4 square[j] [i].m = 0; 

5 square[j] [il].y = 1; 

6 square[j] [i].k = 0; 

7 } 

8 } 

A. 写 总 数 是 多 少 ? 

B. 在 高 速 缓存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 


* 6.40 ”给 定 作 业 6. 38 中 的 假设 ,确定 下 列 代 码 的 高 速 缓 存 性 能 : 


1 for (i = 0; i < 16; i++) { 

” for (j = 0 ] < 165 j++) { 
3 square[i] [jj].y = 1; 

4 } 

5 } 

6 for (i = 0; i < 16; i++) { 

7 for (j = 0; j < 16; j++) { 
8 square[i][jj.c = 0; 

9 square[i] [jj.m = 0; 

10 square[i] [j].k = 0; 

11 

12 k 


A. 写 总 数 是 多 少 ? 
B. 在 高 速 缓 存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 

“6.41 你 正在 编写 一 个 新 的 3D 游戏 ,希望 能 名 利 双 收 。 现 在 正在 写 一 个 阴 数 ,使 得 在 画 下 一 帧 之 前 先 清 
空 屏幕 缓冲 区 。 工 作 的 屏幕 是 640 X 480 像素 数组 。 工 作 的 机 器 有 一 个 64KB 直接 映射 高 速 缓存 ， 
每 行 4 个 字 节 。 使 用 下 面 的 C 语言 数据 结构 : 
1 struct pixel { 


2 char 工 ; 
3 char g; 
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+ 六 b, 42 


** 昌 . 43 


+ 6. 44 


** 6. 45 


** 6, 46 


char b; 
char a; 
于 
struct pixel buffer[480] [640]; 
int 3 
char *cptr; 
int *iptr; 
有 如 下 假设 : 
@ sizeof (char)==1 和 sizeof(int)==4。 
@ buffer 起 始 于 内 存 地 址 0。 
@ 高 速 缓存 初始 为 空 
@ 唯一 的 内 存 访问 是 对 于 buffer 数组 中 元 素 的 访问 。 变 量 i、j、cptr 和 iptr 存放 在 寄存 大 中 ，。 
下 面 代码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 


OO WW O00 AN BUG 二 


ae 


for (is Oi 1 < 640; jz { 


1 

2 for (i = 0; i < 480; i++){ 
3 buffer[i][j].r = 0; 

4 buffer[i][j].g = 0; 

5 buffer[i][j].b = 0; 

6 buffer[i] [jj.a = 0; 

7 

% 


给 定 作 业 6. 41 中 的 假设 ， 下 面 代 码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 
1 char *cptr = (char *) buffer; 

2 for (; cptr < (((char *) buffer) + 640 * 480 * 4); cptr++) 

3 *Ccptr = 0; 


给 定 作 业 6. 41 中 的 假设 ， 下 面 代 人 码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 

| int *iptr = (int *)buffer; 

2 for (; iptr < ((int *)buffer + 640*480); iptr++) 

3 *iptr = 0; 

从 CS:APP 的 网 站 上 下 载 mountain 程序 ， 在 你 最 喜欢 的 PC/Linux 系统 上 运行 它 。 根 据 结果 估计 
你 系统 上 的 高 速 缓存 的 大 小 。 

在 这 项 任务 中 ， 你 会 把 在 第 5 章 和 第 6 章 中 学 习 到 的 概念 应 用 到 一 个 内 存 使 用 频繁 的 代码 的 优化 
问题 上 。 考 虑 一 个 复制 并 转 置 一 个 类 型 为 int 的 NxN 符 阵 的 过 程 。 也 就 是 ， 对 于 源 和 矩阵 S$S 和 目 
的 矩阵 忆 ， 我 们 要 将 每 个 元 素 5;,; 复 制 到 44;,;。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代 码 : 


void transpose(int *dst, int *src, int dim) 


1 

六 或 

3 int i，j; 

4 

5 Fo Ci = 05 1 < dim: Tt) 

6 for (j = 0; j < dim; j++) 

7 dst[j*dim + i] = src[i*dim + j]; 
8 } 


这 里 ， 过 程 的 参数 是 指向 目的 和 矩阵 (dst) 和 源 和 矩阵 (src) 的 指针 ， 以 及 矩阵 的 大 小 NGCaim)。 你 的 
工作 是 设计 一 个 运行 得 尽 可 能 快 的 转 置 函数 。 

这 是 练习 题 6. 45 的 一 个 有 趣 的 变 体 。 考 虑 将 一 个 有 向 图 g 转换 成 它 对 应 的 无 向 图 g 。 图 g 有 一 条 
从 顶点 4 到 顶点 v 的 边 ， 当 且 仅 当 原 图 g 中 有 一 条 到 wv 或 者 vv 到 w 的 边 。 图 g 是 由 如 下 的 它 的 
邻接 矩阵 (adjacency matrix)G 表示 的 。 如 果 N 是 g 中 顶点 的 数量 ,那么 G 是 一 个 NXNN 的 矩阵 ， 
它 的 元 素 是 全 0 或 者 全 1。 假设 & 的 顶点 是 这 样 命名 的 : ww， ，…，wvwn-1。 那 么 如 果 有 一 条 从 vv 
到 ;的 边 ， 那 么 GL [jj 为 1， 否则 为 0。 注 意 ， 邻接 符 阵 对 角 线 上 的 元 素 总 是 1， 而 无 同 图 的 邻 
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接 和 矩阵 是 对 称 的 。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代 码 : 


void col_convert(int *G, int dim) {{ 


1 

2 1nd 3 

3 

4 for (i = 0; i < dim; i++) 

5 for (j = 0; j < dim; j++) 

6 G[j*dim + i] = G[j*dim + i] || G[i*dim + j]; 
J 


你 的 工作 是 设计 一 个 运行 得 尽 可 能 快 的 函数 。 同 前 面 一 样 ， 要 提出 一 个 好 的 解答 ， 你 需要 应 
用 在 第 5 章 和 第 6 章 中 所 学 到 的 概念 。 


练习 题 答案 
6. ] 这 里 的 思想 是 通过 使 纵横 比 max(r，c)/min(r，c) 最 小 ， 使 得 地 址 位 数 最 小 。 换 句 话 说 ， 数 组 越 接 


0,2 


6,3 


6.4 


6: 9 


近 于 正方 形 ， 地 址 位 数 越 少 。 





这 个 小 练习 的 主旨 是 确保 你 理解 柱 面 和 磁道 之 间 的 关系 。 一旦 你 弄 明 白 了 这 个 关系 ， 那 问题 就 很 简 
单 了 ; 








LE _512 学 节 、400 遍 区 数 、 10 000 磁道 数 2 表面 数 2 圾 片 数 
磁 盐 容量 一 局 区 track 本 表面 盘 片 磁盘 
二 8 192 000 000 字 节 
=8, 192GB 


对 这 个 问题 的 解答 是 对 磁盘 访问 时 间 公 式 的 直接 应 用 。 平 均 旋转 时 间 ( 以 ms 为 单位 ) 为 
Tv rotation = 1/2 X Tv wotion = 1/2 X (60s/15 000RPM) X 1000ms/s 二 2ms 
平均 传送 时 间 为 
Tvg transter 二 《60s/15 000RPM) X 1/500 扁 区 / 磁道 X1000ms/s > 0.008mas 
总 的 来 说 ， 总 的 预计 访问 时 间 为 
了 es = Twaek tt ine FF Tu we = BisS+ Zrms 0. 008missss 10mns 
这 道 题 很 好 的 检查 了 你 对 影响 磁盘 性 能 的 因素 的 理解 。 首 先 我 们 需要 确定 这 个 文件 和 磁盘 的 一 些 基 
本 属性 。 这 个 文件 由 2000 个 512 字 节 的 姑 辑 块 组 成 。 对 于 磁盘 ，Tvs yeex 二 5ms， Tax womtion 二 6ms， 
i im = Stns 
A. 最 好 情况 ; 在 好 的 情况 中 ， 块 被 映射 到 连续 的 扇 区 ， 在 同一 柱 面 上 上， 那样 就 可 以 一 块 接 一 块 地 
读 ， 不 用 移动 读 / 写 头 。 一 有 旦 读 / 写 头 定位 到 了 第 一 个 扇 区 ， 需 要 磁盘 转 两 整 圈 ( 每 圈 1000 个 扇 
区 ) 来 读 所 有 2000 个 块 。 所 以 s 读 这 个 文件 的 总 时 间 为 Ts 和 二 Ta 十 2 又 Ta 一 5 十 
3 十 12 二 20ms。 
B. 随机 的 情况 : 在 这 种 情况 中 ， 块 被 随机 地 映射 到 扇 区 上 ， 读 2000 块 中 的 每 一 块 都 需要 Ts 十 
Tvgromiion mS， 所 以 读 这 个 文件 的 总 时 间 为 (Ts ss 十 Tenouion)X2000 王 16 000ms(16 秒 !1)。 
你 现在 可 以 看 到 为 什么 清理 磁盘 碎片 是 个 好 主意 1! 
这 是 一 个 简单 的 练习 ， 让 你 对 SSD 的 可 行 性 有 一 些 有 趣 的 了 解 。 回 想 一 下 对 于 磁盘 ，1PB 王 10? 
MB。 那 么 下 面 对 单 位 的 直接 翻译 得 到 了 下 面 的 每 种 情况 的 预测 时 间 : 
A. 最 糟糕 情况 顺序 写 (470MB/s): (10? X128)X(1/470) X(1/(86 400X365))=:8 年 。 


B. 最 糟糕 情况 随机 写 (303MB/s): (10? X128)X(1/303)X(17(086 400X365)) 寺 13 年 。 
C. 平均 情况 (20GB/ 天 ):， (109 X128)X(1/20 000)X(17365)<*17 535 年 。 
所 以 即使 SSD 连续 工作 ， 也 能 持续 至 少 8 年 时 间 ， 这 大 于 大 多 数 计 算 机 的 预期 寿命 。 

6.6 在 2005 年 到 2015 年 的 10 年间， 旋转 磁盘 的 单位 价格 下 降 了 大 约 166 倍 ， 这 意味 着 价格 大 约 每 18 
个 月 下 降 2 倍 。 假 设 这 个 趋势 一 直 持 续 ，1PB 的 存储 设备 ， 在 2015 年 花费 30 000 美元 , 在 7 次 这 
种 2 倍 的 下 降 之 后 会 降 到 500 美元 以 下 。 因 为 这 种 下 降 每 18 个 月 发 生 一 次 ， 我们 可 以 预期 在 大 约 
2025 年 ， 可 以 用 500 美元 买 到 1PB 的 存储 设备 。 

6. 7 为 了 创建 一 个 步 长 为 1 的 引用 模式 ， 必 须 改 变 循环 的 次 序 ， 使 得 最 右边 的 索引 变化 得 最 快 


int sumarray3d(int al[N][N] LN]) 


1 
从 只 

3 int 1 J, Kk, Sum = 0; 

4 

5 for (k = 0; k < N; k++) 

6 for (i = 0; i < N; i++) { 

7 for (j = 0; j < N;: j++) 4 

8 sum += a[k] [i] [j]; 

9 } 

10 } 

11 } 

12 return sum; 

13 } 

这 是 一 个 很 重要 的 思想 。 要 保证 你 理解 了 为 什么 这 种 循环 次 序 改变 就 能 得 到 一 个 步 长 为 1 的 访问 
模式 。 


6.8 解决 这 个 问题 的 关键 在 于 想象 出 数组 是 如 何在 内 存 中 排列 的 ， 然 后 分 析 引 用 模式 。 郴 数 clearl 以 
步 长 为 1 的 引用 模式 访问 数组 ， 因 此 明显 地 具有 最 好 的 空间 局 部 性 。 哺 数 clear2 依次 扫描 N 个 结 
构 中 的 每 一 个 ， 这 是 好 的 ,但 是 在 每 个 结构 中 ， 它 以 步 长 不 为 1 的 模式 跳 到 下 列 相 对 于 结构 起 始 位 
置 的 偏 移 处 : 0、12、4、16、8、20。 所 以 clear2 的 空间 局 部 性 比 clearl 的 要 差 。 图 数 clear3 
不 仅 在 每 个 结构 中 跳 来 跳 去 ， 而 且 还 从 结构 跳 到 结构 ， 所 以 clear3 的 空间 局 部 性 比 clear2 和 
clearl 都 要 差 。 

6.9 这 个 解答 是 对 图 6-26 中 各 种 高 速 缓存 参数 定义 的 直接 应 用 。 不 那么 令 人 兴奋 ,但 是 在 能 真正 理解 
高 速 缓存 如 何 工 作 之 前 ， 你 需要 理解 高 速 绥 存 的 结构 是 如 何 导致 这 样 划 分 地 址 位 的 。 





6. 10 ”填充 消除 了 冲突 不 命中 。 因 此 ， 四 分 之 三 的 引用 是 命中 的 。 
6. 11 有 了 时候， 理解 为 什么 某 种 思想 是 不 好 的 ， 能 够 帮助 你 理解 为 什么 男 一 种 是 好 的 。 这 里 ,我们 看 到 
的 坏 的 想法 是 用 高 位 来 案 引 高 速 缓存 ， 而 不 是 用 中 间 的 位 。 
A. 用 高 位 做 索引 ， 每 个 连续 的 数组 片 (chunk) 由 2’ 个 块 组 成 ,这 里 1 是 标记 位 数 。 因 此 ， 数 组 头 
2' 个 连续 的 块 都 会 映射 到 组 0， 接 下 来 的 天 个 块 会 映射 到 组 1， 依 此 类 推 。 
B. 对 于 直接 映射 高 速 缓存 (S， 太 ，B,， 贡 ) 二 (512，1，32，32)， 高 速 绥 存 容量 是 512 个 32 字 节 的 
块 ， 每 个 高 速 缓存 行 中 有 :==18 个 标记 位 。 因 此 ， 数 组 中 头 2* 个 块 会 映射 到 组 0， 接 下 来 2* 个 
块 会 映射 到 组 1]。 因 为 我 们 的 数组 只 由 (4096X4)/32==512 个 块 组 成 ， 所 以 数组 中 所 有 的 块 都 
被 映射 到 组 0。 因 此 ， 在 任何 时 刻 ， 高 速 缓存 至 多 只 能 保存 一 个 数组 块 ， 即 使 数组 足够 小 ， 能 
够 完全 放 到 高 速 缓存 中 。 很 明显 ， 用 高 位 做 索引 不 能 充分 利用 高 速 缓存 。 
6. 12 两 个 低位 是 块 偏 移 (CO)， 然 后 是 3 位 的 组 索引 (CI)， 剩 下 的 位 作为 标记 (CT) : 
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i123 2 WW 9 % 7 6 5 4 3 2 1 0 
06. 13 地址; 0x0E34 
A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ) : 
I2 11 10 9 8 7 6 5 4 3 2 l 0 


CT CT ET CI CT BEE 可 而 
B. 内 存 引 用 : 











0 | om 
6.14 地址: 0x0DD5 


A, 地 址 格式 (每 个 小 格子 表示 一 个 位 ): 
I2 11 10 9 8 7 6 5 4 3 2 1 0 


I i | ile ll ll 


er Cr :CF Hw CT 
B. 内 存 引 用 : 






高 速 缓存 块 偏 移 (CO) 


Oxl 
高 速 绥 存 组 索引 (CI) 0x5 


参 
高 速 缓存 标记 《CT) 
高 速 缓 存 命中 ? (是 / 否 ) 合 
返回 的 高 速 缓存 字 节 
6. 15 ” 地址; 0xlFF4 


A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ): 
小 大 下 多 区 年 省 二 过 章 如 时 


or ST Wr 
B. 内 存 引 用 : 


YY 
2 
一 从 
2 、 
. 
下 
PP 








6. 16 这 个 问题 是 练习 题 6. 12 一 练习 题 6. 15 的 一 种 逆 过 程 ， 要 求 你 反 向 工作 ， 从 高 速 缓存 的 内 容 推出 
会 在 某 个 组 中 命中 的 地 址 。 在 这 种 情况 中 , 组 3 包含 一 个 有 效 行 ， 标 记 为 0x32。 因 为 组 中 只 有 一 
个 有 效 行 ，4 个 地 址 会 命中 。 这 些 地 址 的 二 进 制 形式 为 0 0110 0100 11xx。 因 此 ， 在 组 3 中 命中 的 
4 个 十 六 进 制 地 址 是 : 0x064C、0x064D、0x064E 和 0x064F。 


6. 17 


6. 18 


6. 20 


6. 21 


A. 解决 这 个 问题 的 关键 是 想象 出 图 6-48 中 的 图 像 。 注 意 ， 每 个 高 速 缓存 行 只 包含 数组 的 一 个 行 ， 
高 速 缓存 正好 只 够 保存 一 个 数组 ， 而 且 对 于 所 有 的 i，src 和 dst 的 行 i 映射 到 同一 个 高 速 缓 
存 行 。 因 为 高 速 缓存 不 够 大 ， 不 足以 


容纳 这 两 个 数组 ， 所 以 对 一 个 数组 的 0 ia 高 速 缓 存 
引用 总 是 驱逐 出 另 一 个 数组 的 有 用 的 red 行 0 
行 。 例 如 ， 对 dst[0] [0] 写 会 驱逐 当 我 ast { 人 
们 读 src[0] [0] 时 加 载 进 来 的 那 一 行 。 
所 以 ， 当 我 们 接 下 来 读 src10] [1] 时 ， 图 648 练习 题 6. 17 的 图 

会 有 一 个 不 三 中 。 


B. 当 高 速 缓存 为 32 字 节 时 ， 它 足够 大 ， 能 容纳 这 两 个 数组 。 因 此 ， 所 有 的 不 命中 都 是 开始 时 的 
冷 不 命中 。 


dst 数 组 src 数 组 

列 0 列 1 列 0 列 ] 
fo m [| m fo m | m | 
| m | m | fm | | 

dst 数 组 src 数 组 

列 0 列 ] 列 0 列 ] 


行 (| m | hh | 行 (| mh | 
fi| m | k 1! | m | hh 

等 人 16 字 节 的 高 速 缓存 行 包 含 着 两 个 连续 的 algae position 结构 。 每 个 循环 按照 内 存 顺序 访问 

这 些 结 构 ， 每 次 读 一 个 整数 元 素 。 所 以 ， 每 个 循环 的 模式 就 是 不 命中 、 命 中 、 不 命中 、 命 中 ， 依 
此 类 推 . 注意 ， 对 于 这 个 问题 ， 我 们 不 必 实 际 列 举 出 读 和 不 命中 的 总 数 ， 就 能 预测 出 不 命中 率 。 
A. 读 总 数 是 多 少 ?9 512 个 读 ， 

etl np do 256 个 不 命中 。 

命中 率 是 多 少 ? 256/512 王 50%%。 

etter 1/2。 所 以 ,按照 列 顺序 来 扫描 数组 的 
第 二 部 分 会 驱逐 扫描 第 一 部 分 时 加 载 进来 的 那些 行 。 例 如 ,， 读 grida[8] [0] 的 第 一 个 元 素 会 驱逐 当 
我 们 读 gria[r0] [0] 的 元 素 时 加 载 进 来 的 那 一 行 。 这 一 行 也 包含 grid[0] [1]。 所 以 ， 当 我 们 开始 
扫描 下 一 列 时 ， 对 grid[0] [1] 第 一 个 元 素 的 引用 会 不 命中 。 
A. 读 总 数 是 多 少 ? 512 个 读 。 

B. 缓存 不 命中 的 读 总 数 是 多 少 ? 256 个 不 命中 。 

C. 不 命中 率 是 多 少 ? 256/512 二 50%。 
D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 如 果 高 速 缓存 有 现在 的 两 倍 大 ， 那 么 它 能 

够 保存 整个 grid 数组。 所 有 的 不 命中 都 会 是 开始 时 的 冷 不 命中 ， 而 不 命中 率 会 是 1/4 二 25%。 
这 个 循环 有 很 好 的 步 长 为 1 的 引用 模式 ， 因 此 所 有 的 不 命中 都 是 最 开始 时 的 冷 不 命中 ， 
A. 读 总 数 是 多 少 ? 512 个 读 。 
B. 缓存 不 命中 的 读 总 数 是 多 少 ? 128 个 不 命中 。 
C. 不 命中 率 是 多 少 ? 128/512 一 25%。 
D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ?无 论 高 速 缓 存 的 大 小 增加 多 少 ， 都 不 会 改 

变 不 命中 率 ， 因 为 冷 不 命中 是 不 可 避免 的 。 
从 L1 的 吞吐 量 峰 值 是 大 约 12 000MB/s， 时 钟 频率 是 2100MHz， 而 每 次 读 访问 都 是 以 8 字 节 long 
类 型 为 单位 的 。 所 以 ， 从 这 张 图 中 我 们 可 以 估计 出 在 这 人 台 机 器 上 从 Ll 访问 一 个 字 需 要 大 约 2100/ 
12 000X8 王 1. 4A1. 5 周期 ， 比 正常 访问 L1 的 延迟 4 周期 快 大 约 2.5 倍 。 这 是 由 于 4X4 的 循环 展 
开 得 到 的 并 行 允 许 同 时 进行 多 个 加 载 操 作 。 


第 二 部 分 


在 系统 上 运行 程序 


继续 我 们 对 计算 机 系统 的 探索 ， 进 一 步 来 看 看 构建 和 运行 应 
用 程序 的 系统 软件 。 链 接 器 把 程序 的 各 个 部 分 联合 成 一 个 文件 ， 
处 理 器 可 以 将 这 个 文件 加 载 到 内 存 ， 并 且 执 行 它 。 现 代 操 作 系 统 
与 硬件 合作 ， 为 每 个 程序 提供 一 种 幻象 ， 好 像 这 个 程序 是 在 独占 
地 使 用 处 理 器 和 主 存 ， 而 实际 上 ， 在 任何 时 刻 ， 系统 上 都 有 多 个 
程序 在 运行 。 

在 本 书 的 第 一 部 分 ， 你 很 好 地 理解 了 程序 和 硬件 之 间 的 交互 
关系 。 本 书 的 第 二 部 分 将 拓宽 你 对 系统 的 了 解 ， 使 你 牢固 地 掌握 
程序 和 操作 系统 之 间 的 交互 关系 。 你 将 学 习 到 如 何 使 用 操作 系统 
提供 的 服务 来 构建 系统 级 程序 ， 例 如 Unix shell 和 动态 内 存 分 
配 包 。 


链接 (linking) 是 将 各 种 代码 和 数据 片段 收集 并 组 合成 为 一 个 单一 文件 的 过 程 ， 这 个 文 
件 可 被 加 载 ( 复 制 ) 到 内 存 并 执行 。 链 接 可 以 执行 于 编译 时 (compile time)， 也 就 是 在 源 代 
码 被 翻译 成 机 器 代码 时 ; 也 可 以 执行 于 加 载 时 (load time)， 也 就 是 在 程序 被 加 载 器 (load- 
er) 加 载 到 内 存 并 执行 时 ; 甚至 执行 于 运行 时 (Crun time)， 也 就 是 由 应 用 程序 来 执行 。 在 早 
期 的 计算 机 系统 中 ， 链 接 是 手动 执行 的 。 在 现代 系统 中 ， 链 接 是 由 叫做 链接 器 (linker) 的 
程序 自动 执行 的 。 

链接 需 在 软件 开发 中 扮演 着 一 个 关键 的 角色 ， 因 为 它们 使 得 分 离 编 译 (separate com- 

pilation) 成 为 可 能 。 我 们 不 用 将 一 个 大 型 的 应 用 程序 组 织 为 一 个 巨大 的 源 文件 ， 而 是 可 以 
把 它 分 解 为 更 小 、 更 好 管理 的 模块 ， 可 以 独立 地 修改 和 编译 这 些 模 块 。 当 我 们 改变 这 些 模 
块 中 的 一 个 时 ， 只 需 简 单 地 重新 编译 它 ， 并 重新 链接 应 用 ， 而 不 必 重 新 编译 其 他 文件 。 

链接 通常 是 由 链接 需 来 默默 地 处 理 的 ， 对 于 那些 在 编程 人 门 课堂 上 构造 小 程序 的 学 生 

而 言 ， 链 接 不 是 一 个 重要 的 议题 。 那 为 什么 还 要 这 么 麻烦 地 学 习 关 于 链接 的 知识 呢 ? 

@ 理解 链接 器 将 帮助 你 构造 大 型 程序 。 构 造 大 型 程序 的 程序 员 经 常会 遇 到 由 于 缺少 模 
块 、 缺 少 库 或 者 不 兼容 的 库 版 本 引起 的 链接 器 错误 。 除 非 你 理解 链接 器 是 如 何 解 析 
引用 、 什 么 是 库 以 及 链接 器 是 如 何 使 用 库 来 解析 引用 的 ， 否 则 这 类 错误 将 令 你 感到 

@ 理解 链接 器 将 帮助 你 避免 一 些 危 险 的 编程 错误 。Linux 链接 器 解析 符号 引用 时 所 做 
的 决定 可 以 不 动 声色 地 影响 你 程序 的 正确 性 。 在 默认 情况 下 ， 错 误 地 定义 多 个 全 局 
变量 的 程序 将 通过 链接 器 ， 而 不 产生 任何 警告 信息 。 由 此 得 到 的 程序 会 产生 令 人 迷 
惑 的 运行 时 行为 ， 而 且 非 常 难以 调试 。 我 们 将 向 你 展示 这 是 如 何 发 生 的 ， 以 及 该 如 
何 避免 它 。 

@ 理解 链接 将 帮助 你 理解 语言 的 作用 域 规则 是 如 何 实现 的 。 例 如 ， 全 局 和 局 部 变量 之 
间 的 区 别 是 什么 ? 当 你 定义 一 个 具有 static 属性 的 变量 或 者 函数 时 ， 实 际 到 底 意 
味 着 什么 ? 

@ 理解 链接 将 帮助 你 理解 其 他 重要 的 系统 概念 。 链 接 器 产生 的 可 执行 目标 文件 在 重要 的 系 
统 功 能 中 扮演 着 关键 角色 ， 比 如 加 载 和 运行 程序 、 虚 拟 内 存 、 分 页 、 内 存 映射 。 

@ 理解 链接 将 使 你 能 够 利用 共享 库 。 多 年 以 来 ,链接 都 被 认为 是 相当 简单 和 无 趣 的 ，。 
然而 ， 随 着 共享 库 和 动态 链接 在 现代 操作 系统 中 重要 性 的 日 益 加 强 ， 链 接 成 为 一 个 
复杂 的 过 程 ， 为 擎 握 它 的 程序 员 提 供 了 强大 的 能 力 。 比 如 ， 许 多 软件 产品 在 运行 时 
使 用 共享 库 来 升级 压缩 包装 的 (shrink-wrapped) 二 进 制 程序 。 还 有 ， 大 多 数 Web 服 
务 表 都 依赖 于 共享 库 的 动态 链接 来 提供 动态 内 容 。 

这 一 章 提 供 了 关于 链接 各 方面 的 全 面 讨论 ， 从 传统 静态 链接 到 加 载 时 的 共享 库 的 动态 链 

接 ， 以 及 到 运行 时 的 共享 库 的 动态 链接 。 我 们 将 使 用 实际 示例 来 描述 基本 的 机 制 ， 而 且 指 出 
链接 问题 在 哪些 情况 中 会 影响 程序 的 性 能 和 正确 性 。 为 了 使 描述 具体 和 便于 理解 ， 我 们 的 讨 
论 是 基于 这 样 的 环境 : 一 个 运行 Linux 的 x86-64 系统 ， 使 用 标准 的 ELF-64( 此 后 称 为 ELF) 
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目标 文件 格式 。 不 过 ， 无 论 是 什么 样 的 操作 系统 、ISA 或 者 目标 文件 格式 ， 基 本 的 链接 概念 
是 通用 的 ， 认 识 到 这 一 点 是 很 重要 的 。 细 节 可 能 不 尽 相同 ,但 是 概念 是 相同 的 。 


7. 1 编译 怖 驱动 程序 
考虑 图 7-1 中 的 C 语言 程序 。 它 将 作为 贯穿 本 章 的 一 个 小 的 运行 示例 ， 帮 助 我 们 说 明 
关于 链接 是 如 何 工 作 的 一 些 重要 知识 点 。 


code/link/main.c i 
1 int sum(int *a, int n); 1 int sum(int *a, int n) 
2 多 和 
3 int array[2] = {1, 2}; 3 int 寺 ，B 二 0: 
4 4 
5 int main() 5 for (i = 0; i < ni i++) { 
6 1 6 s += a[i]; 
7 int val = sum(array, 2); 7 : 
8 return val; 8 return s; 
9 } 9 
code/link/main.c 0 
a) main.c b) sum.c 


图 7-1 示例 程序 1。 这 个 示例 程序 由 两 个 源 文件 组 成 ，main.c 和 sum.c。main 图 数 初 始 化 一 个 整数 
数组 ， 然 后 调用 sum 图 数 来 对 数组 元 素 求 和 


大 多 数 编译 系统 提供 编译 器 驱动 程序 (compiler driver) ， 它 代表 用 户 在 需要 时 调用 话 
言 预 处 理 器 、 编 译 器 、 汇 编 部 和 链接 需 。 main.c Sum.C 源 文件 
比如 ， 要 用 GNU 编译 系统 构造 示例 程序 ， 
我 们 就 要 通过 在 shell 中 输入 下 列 命令 来 调 
用 GCC 驱动 程序 : 


linux> gcc -DOg -o prog main.c sum.c main.o sum.o 可 重 定位 目标 文件 


ASCII 码 源 文件 翻译 成 可 执行 目标 文件 时 


的 行为 。( 如 果 你 想 看 看 这 些 步 又， 用 -v 选 Bo 
项 来 运行 GCC。) 驱 动 程序 首先 运行 C 预 处 
理 器 (cpp)2， 它 将 C 的 源 程 序 main.c 翻 
译 成 一 个 ASCII 码 的 中 间 文 件 main .i: 


cpp [other arguments] main.c /tmp/main.i 


接 下 来 ， 驱 动 程序 运行 C 编译 器 (ccl)， 它 将 main.i 翻译 成 一 个 ASCI 汇编 语言 


件 main.s: 








图 7-2 静态 链接 。 链 接 器 将 可 重 定位 目标 文件 组 合 
起 来 ， 形 成 一 个 可 执行 目标 文件 prog 


ccl /tmp/main.i -Og [other arguments] -o /tmp/main.s 


然后 ， 驱 动 程序 运行 汇编 器 (as)， 它 将 main.s 翻译 成 一 个 可 重 定位 目标 文件 (relo- 
catable object file)main .o: 


as [other arguments] -~o /tmp/main.o /tmp/main.s 


日 ”在 某 些 GCC 版 本 中 ， 预 处 理 器 被 集成 到 编译 器 驱动 程序 中 。 
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驱动 程序 经 过 相同 的 过 程 生成 sum.o。 最 后 ， 它 运行 链接 器 程序 1d， 将 main.o 和 
sum.o 以 及 一 些 必要 的 系统 目标 文件 组 合 起 来 ， 创 建 一 个 可 执行 目标 文件 (executable ob- 
ject file)prog: 


ld -o prog [system object files and args] /tmp/main.o /tmp/sum.o 


要 运行 可 执行 文件 prog， 我 们 在 Linux shell 的 命令 行 上 输入 它 的 名 字 : 


linux> ./prog 


shell 调用 操作 系统 中 一 个 叫做 加 载 器 (loader) 的 函数 ， 它 将 可 执行 文件 prog 中 的 代 
码 和 数据 复制 到 内 存 ， 然 后 将 控制 转移 到 这 个 程序 的 开头 。 


7.2 和 静态 链接 


像 Linux LD 程序 这 样 的 静态 链接 器 (static linker) 以 一 组 可 重 定 位 目标 文件 和 命令 行 
参数 作为 输入 ， 生 成 一 个 完全 链接 的 、 可 以 加 载 和 运行 的 可 执行 目标 文件 作为 输出 。 输 入 
的 可 重 定 位 目标 文件 由 各 种 不 同 的 代码 和 数据 节 (section) 组 成 ， 每 一 节 都 是 一 个 连续 的 字 
节 序 列 。 指 令 在 一 节 中 ， 初 始 化 了 的 全 局 变量 在 另 一 节 中 ， 而 未 初始 化 的 变量 又 在 另外 一 
节 中 ; 

为 了 构造 可 执行 文件 ， 链 接 器 必须 完成 两 个 主要 任务 : 

@ 符号 解析 (symbol resolution) 。 目 标 文件 定义 和 引用 符号 ， 每 个 符号 对 应 于 一 个 果 

数 、 一 个 全 局 变量 或 一 个 静态 变量 ( 即 C 语言 中 任何 以 static 属性 声明 的 变量 ) 。 
符号 解析 的 目的 是 将 每 个 符号 引用 正好 和 一 个 符号 定义 关联 起 来 。 

@ 重 定 位 (relocation) 。 编 译 右 和 汇编 匿 生 成 从 地 址 0 开始 的 代码 和 数据 节 。 链 接 需 通 

过 把 每 个 符号 定义 与 一 个 内 存 位 置 关 联 起 来 ， 从 而 重 定 位 这 些 节 ， 然 后 修改 所 有 对 
这 些 符号 的 引用 ， 使 得 它们 指 同 这 个 内 存 位置 。 链 接 顺 使 用 汇编 器 产生 的 重 定 位 条 
目 (relocation entry) 的 详细 指令 ， 不 加 甄别 地 执行 这 样 的 重 定 位 。 

接 下 来 的 章节 将 更 加 详细 地 描述 这 些 任务 。 在 你 阅读 的 时 候 ， 要 记 住 关于 链接 器 的 一 
些 基 本 事实 : 目标 文件 纯粹 是 字 节 块 的 集合 。 这 些 块 中 ， 有 些 包含 程序 代码 ， 有 些 包 含 程 
序数 据 ， 而 其 他 的 则 包含 引导 链接 器 和 加 载 器 的 数据 结构 。 链 接 需 将 这 些 块 连接 起 来 ， 确 
定 被 连接 块 的 运行 时 位 置 ， 并 且 修 改 代码 和 数据 块 中 的 各 种 位 置 。 链 接 器 对 目标 机 器 了 解 
其 少 。 产 生 目 标 文件 的 编译 融和 汇编 右 已 经 完成 了 大 部 分 工作 ，。 


7.3 目标 文件 
目标 文件 有 三 种 形式 : 
@ 可 重 定位 目标 文件 。 包 含 二 进 制 代 码 和 数据 ， 其 形式 可 以 在 编译 时 与 其 他 可 重 定位 
目标 文件 合并 起 来 ， 创 建 一 个 可 执行 目标 文件 。 
@ 可 执行 目标 文件 。 包 含 二 进 制 代 码 和 数据 ， 其 形式 可 以 被 直接 复制 到 内 存 并 执行 。 
@ 共享 目标 文件 。 一 种 特殊 类 型 的 可 重 定 位 目标 文件 ， 可 以 在 加 载 或 者 运行 时 被 动态 
地 加 载 进 内 存 并 链接 。 
编译 器 和 汇编 囊 生 成 可 重 定位 目标 文件 (包括 共享 目标 文件 )。 链 接 器 生成 可 执行 目标 文 
件 。 从 技术 上 来 说 ， 一 个 目标 模块 (object module) 就 是 一 个 字 节 序列 ， 而 一 个 目标 文件 (ob- 
ject file) 就 是 一 个 以 文件 形式 存放 在 磁盘 中 的 目标 模块 。 不 过 ， 我 们 会 互 换 地 使 用 这 些 术 语 。 
目标 文件 是 按照 特定 的 目标 文件 格式 来 组 织 的 ， 各 个 系统 的 目标 文件 格式 都 不 相同 。 
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从 贝尔 实验 室 诞生 的 第 一 个 Unix 系统 使 用 的 是 a.out 格式 (直到 今天 ， 可 执行 文件 仍然 
称 为 a.out 文件 )。Windows 使 用 可 移植 可 执行 (Portable Executable，PE) 格 式 。Mac 
OS-X 使 用 Mach-O 格式 。 现 代 x86-64 Linux 和 Unix 系统 使 用 可 执行 可 链接 格式 (Execut- 
able and Linkable Format，ELF)。 尽 管 我 们 的 讨论 集中 在 ELF 上 , 但 是 不 管 是 哪 种 格式 ， 
基本 的 概念 是 相似 的 。 


7.4 可 重 定 位 目标 文件 
图 7-3 展示 了 一 个 典型 的 ELF 可 重 定 位 目标 文件 的 格式 。ELEF 头 (ELF header) 以 一 


个 16 字 节 的 序列 开始 ， 这 个 序列 描述 了 生成 该 文件 | 
的 系统 的 字 的 大 小 和 字 节 顺序 。ELF 头 剩 下 的 部 分 
包含 帮助 链接 器 语法 分 析 和 解释 目标 文件 的 信息 。 其 
中 包括 ELF 头 的 大 小 、 目 标 文件 的 类 型 (如 可 重 定 一 一 


位 、 可 执行 或 者 共享 的 )、 机 器 类 型 (如 x86-64)、 节 bss | 


头 部 表 (section header table) 的 文件 偏 移 ， 以 及 节 头 





部 表 中 条 目的 大 小 和 数量 。 不 同 节 的 位 置 和 大 小 是 由 
节 头 部 表 描述 的 ， 其 中 目标 文件 中 每 个 节 都 有 一 个 辕 
定 大 小 的 条 目 (entry)。 
夹 在 ELF 头 和 节 头 部 表 之 间 的 都 是 节 。 一 个 典 
型 的 ELF 可 重 定位 目标 文件 包含 下 面 几 个 节 : Sa 
.text: 已 编译 程序 的 机 器 代码 。 文件 的 节 下 


.rodata: 只 读数 据 ， 比 如 printf 语句 中 的 格 图 7-3 典型 的 ELF 可 重 定位 目标 文件 
式 串 和 开关 语句 的 跳 转 表 。 

.data: 已 初始 化 的 全 局 和 静态 C 变量 。 局 部 C 变量 在 运行 时 被 保存 在 栈 中 ， 既 不 出 
现在 .data 市 中 ， 也 不 出 现在 .bss 节 中 。 

.bss: 未 初始 化 的 全 局 和 静态 C 变量 ， 以 及 所 有 被 初始 化 为 0 的 全 局 或 静态 变量 。 在 
目标 文件 中 这 个 节 不 占据 实际 的 空间 ， 它 仅仅 是 一 个 占 位 符 。 目 标 文件 格式 区 分 已 初始 化 
和 未 初始 化 变量 是 为 了 空间 效率 : 在 目标 文件 中 ， 未 初始 化 变量 不 需要 占据 任何 实际 的 磁 
盘 空 间 。 运 行 时 ， 在 内 存 中 分 配 这 些 变量 ,初始 值 为 0。 

.symtab;: 一 个 符号 表 ， 它 存放 在 程序 中 定义 和 引用 的 也 数 和 全 局 变量 的 信息 。 一 些 
程序 员 错 误 地 认为 必须 通过 -g 选项 来 编译 一 个 程序 ， 才 能 得 到 符号 表 信 息 。 实 际 上 ， 每 
个 可 重 定 位 目标 文件 在 .symtab 中 都 有 一 张 符 号 表 ( 除 非 程 序 员 特 意 用 STRIP 命令 去 掉 
它 )。 然 而 ， 和 编译 器 中 的 符号 表 不 同 , .symtab 符号 表 不 包含 局 部 变量 的 条 目 。 

.rel.text: 一 个 .text 节 中 位 置 的 列表 ， 当 链接 器 把 这 个 目标 文件 和 其 他 文件 组 合 
时 ， 需 要 修改 这 些 位 置 。 一 般 而 言 ， 任 何 调用 外 部 函数 或 者 引用 全 局 变量 的 指令 都 需要 修 
改 。 男 一 方面 ， 调 用 本 地 哺 数 的 指令 则 不 需要 修改 。 注 意 ， 可 执行 目标 文件 中 并 不 需要 重 
定位 信息 ， 因 此 通常 省 略 ， 除 非 用 户 显 式 地 指示 链接 器 包含 这 些 信息 。 

.rel.data: 被 模块 引用 或 定义 的 所 有 全 局 变量 的 重 定 位 信息 。 一 般 而 言 ， 任 何 已 初 
始 化 的 全 局 变量 ， 如 果 它 的 初始 值 是 一 个 全 局 变量 地 址 或 者 外 部 定义 函数 的 地 址 ， 都 需要 
被 修改 。 

.debug: 一 个 调试 符号 表 ， 其 条 目 是 程序 中 定义 的 局 部 变量 和 类 型 定义 ， 程 序 中 和 定 
义 和 引 用 的 全 局 变量 ， 以 及 原始 的 C 源 文 件 。 只 有 以 -g 选 项 调用 编译 器 驱动 程序 时 ， 才 
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会 得 到 这 张 表 。 
.line: 原始 C 源 程 序 中 的 行 号 和 .text 节 中 机 需 指 令 之 间 的 映射 。 只 有 以 -9 选项 调 
用 编译 上 句 驱 动 程序 时 ， 才 会 得 到 这 张 表 。 
.strtab; 一 个 字符 串 表 ， 其 内 容 包 括 .symtab 和 .debug 节 中 的 符号 表 ， 以 及 节 头 
部 中 的 节 名 字 。 字 符 串 表 就 是 以 null 结尾 的 字符 串 的 序列 。 


ES 为 什么 未 初始 化 的 数据 称 为 .bss 

用 术语 .bss 来 表示 未 初始 化 的 数据 是 很 普遍 的 。 它 起 始 于 IBM 704 汇编 语言 (大 约 
在 1957 年 ) 中 “ 块 存储 开始 (Block Storage Start)” 指 令 的 首 字 母 缩写 ， 并 沿用 至 今 。 
一 种 记 住 .data 和 .bss 节 之 间 区 别 的 简单 方法 是 把 “bss” 看 成 是 “更 好 地 节省 空间 
(Better Save Space)” 的 缩写 。 


7.5 符号 和 符号 表 
每 个 可 重 定位 目标 模块 m 都 有 一 个 符号 表 ， 它 包含 m 定义 和 引用 的 符号 的 信息 。 在 
链接 右 的 上 下 文中 ， 有 三 种 不 同 的 符号 : 
e 由 模块 m 定义 并 能 被 其 他 模块 引用 的 全 局 符号 。 全 局 链接 器 符号 对 应 于 非 静 态 的 C 
商 数 和 全 局 变量 ，。 
e 由 其 他 模块 定义 并 被 模块 mx 引用 的 全 局 符号 。 这 些 符号 称 为 外 部 符号 ， 对 应 于 在 其 
他 模块 中 定义 的 非 静 态 C 函数 和 全 局 变量 。 
e 只 被 模块 m 定义 和 引用 的 局 部 符号 。 它 们 对 应 于 带 static 属性 的 C 也 数 和 全 局 变 
量 ， 这 些 符 号 在 模块 mx 中 任何 位 置 都 可 见 ， 但 是 不 能 被 其 他 模块 引用 。 
认识 到 本 地 链接 吾 符 号 和 本 地 程序 变量 不 同 是 很 重要 的 。.symtab 中 的 符号 表 不 包含 
应 于 本 地 非 静 态 程序 变量 的 任何 符号 。 这 些 符号 在 运行 时 在 栈 中 被 管理 ， 链 接 器 对 此 类 
符号 不 感 兴趣 。 
有 趣 的 是 ， 定 义 为 带 有 C static 属 性 的 本 地 过 程 变 量 是 不 在 栈 中 管理 的 。 相 反 ， 编 
译 器 在 .data 或 .bss 中 为 每 个 定义 分 配 空间 ， 并 在 符号 表 中 创建 一 个 有 唯一 名 字 的 本 地 
链接 右 符 号 。 比 如 ， 假 设 在 同一 模块 中 的 两 个 函数 各 自 定义 了 一 个 静态 局 部 变量 x: 


1 int f() 

之 站 

3 static int x = 0; 
4 return XxX; 

$. 

6 

7 int g() 

8 + 

9 static int = 1 
10 return Xx; 


在 这 种 情况 中 ， 编 译 帮 问 汇编 右 输 出 两 个 不 同名 字 的 局 部 链接 颖 符号 。 比 如 ， 它 可 以 
用 x.1 表示 函数 ££ 中 的 定义 ， 而 用 x.2 表示 也 数 g 中 的 定义 。 





C 程序 员 使 用 static 属性 隐藏 模块 内 部 的 变量 和 函数 声明 ， 就 像 你 在 Java 和 C++ 
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中 使 用 public 和 Private 声明 一 样 。 在 C 中 ， 源 文件 扮演 模块 的 角色 。 任 何 带 有 
static 属性 声明 的 全 局 变量 或 者 函数 都 是 模块 私有 的 。 类 似 地 ， 任 何不 带 static 属 
性 声明 的 全 局 变量 和 函数 都 是 公共 的 ， 可 以 被 其 他 模块 访问 。 尽 可 能 用 static 属性 来 
保护 你 的 变量 和 函数 是 很 好 的 编程 习惯 。 


符号 表 是 由 汇编 磊 构 造 的 ， 使 用 编译 需 输 出 到 汇编 语言 .s 文件 中 的 符号 。.symtab 节 
中 包含 ELF 符号 表 。 这 张 符 号 表 包 含 一 个 条 目的 数组 。 图 7-4 展示 了 每 个 条 目的 格式 。 


code/link/elfstructs.c 
1 typedef struct { 
2 int name; /* String table offset */ 
3 char type:4, /* Function or data (4 bits) */ 
4 binding:4; /* Local or global (4 bits) */ 
5 char reserved; /* Unused */ 
6 short section,; /* Section header index */ 
7 long Value ; /* Section offset or absolute address */ 
8 long size; /* Object size in bytes */ 
9 } Elf64_Symbol; 
code/link/elfstructs.c 


图 7-4 ELF 符号 表 和 条目。type 和 binding 字段 每 个 都 是 4 位 


name 是 字符 串 表 中 的 字 节 偏 移 ， 指 向 符号 的 以 null 结尾 的 字符 串 名 字 。value 是 符 
号 的 地 址 。 对 于 可 重 定位 的 模块 来 说 ，value 是 距 定 义 目 标的 节 的 起 始 位 置 的 偏 移 。 对 于 
可 执行 目标 文件 来 说 ， 该 值 是 一 个 绝对 运行 时 地 址 。size 是 目标 的 大 小 (以 字 节 为 单位 )。 
type 通常 要 么 是 数据 ， 要 么 是 图 数 。 符 号 表 还 可 以 包含 各 个 节 的 条 目 ， 以 及 对 应 原始 源 
文件 的 路 径 名 的 条 目 。 所 以 这 些 目标 的 类 型 也 有 所 不 同 。binding 字段 表示 符号 是 本 地 的 
还 是 全 局 的 。 

每 个 符号 都 被 分 配 到 目标 文件 的 某 个 节 ， 由 section 字段 表示 ， 该 字段 也 是 一 个 到 
节 头 部 表 的 索引 。 有 三 个 特殊 的 伪 节 (pseudosection)， 它 们 在 节 头 部 表 中 是 没有 条 目的 : 
ABS 代表 不 该 被 重 定 位 的 符号 ; UNDEF 代表 未 定义 的 符号 ， 也 就 是 在 本 目标 模块 中 引 
用 , 但 是 却 在 其 他 地 方 定 义 的 符号 ; COMMON 表示 还 未 被 分 配 位 置 的 未 初始 化 的 数据 目 
标 。 对 于 COMMON 符号 ，value 字段 给 出 对 齐 要 求 ， 而 size 给 出 最 小 的 大 小 。 注 意 ， 
只 有 可 重 定 位 目标 文件 中 才 有 这 些 伪 节 ， 可 执行 目标 文件 中 是 没有 的 。 

COMMON 和 .bss 的 区 别 很 细微 。 现 代 的 GCC 版 本 根据 以 下 规则 来 将 可 重 定位 目标 
文件 中 的 符号 分 配 到 COMMON 和 .bss 中 : 

COMMON 未 初始 化 的 全 局 变量 
.bss 未 初始 化 的 静态 变量 ,以 及 初始 化 为 0 的 全 局 或 静态 变量 

采用 这 种 看 上 去 很 绝对 的 区 分 方式 的 原因 来 自 于 链接 需 执行 符号 解析 的 方式 ， 我 们 会 在 
7.6 节 中 加 以 解释 。 

GNU READELF 程序 是 一 个 查看 目标 文件 内 容 的 很 方便 的 工具 。 比 如 ， 下 面 是 图 7-] 
中 示例 程序 的 可 重 定 位 目标 文件 main.o 的 符号 表 中 的 最 后 三 个 条 目 。 开 始 的 8 个 条 目 没 
有 显示 出 来 ， 它 们 是 链接 器 内 部 使 用 的 局 部 符号 。 


Num: Value Size Type Bind Vis Ndx Name 
8: O0000000000000000 24 FUNC GLOBAL DEFAULT 1 main 
9: 0000000000000000 8 OBJECT GLOBAL DEFAULT 3 array 


10: 0000000000000000 O NOTYPE GLOBAL DEFAULT UND sum 
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在 这 个 例子 中 ， 我 们 看 到 全 局 符号 main 定义 的 条 目 ， 它 是 一 个 位 于 .text 节 中 偏 移 量 
为 0( 即 value 值 ) 处 的 24 字 节 函数 。 其 后 跟随 着 的 是 全 局 符号 array 的 定义 ， 它 是 一 个 位 
于 .data 节 中 偏 移 量 为 0 处 的 8 字 节 目标 。 最 后 一 个 条 目 来 自 对 外 部 符号 sum 的 引用 。 
READELEF 用 一 个 整数 索引 来 标识 每 个 节 。Ndx=1 表示 .text 节 ， 而 Ndx=3 表示 .data 节 。 
ES 练习 题 7. 1 这 个 题目 针对 图 7-5 中 的 m.o 和 swap.o 模块 。 对 于 每 个 在 swap.o 中 定 
义 或 引用 的 符号 ,请 指出 它 是 否 在 模块 swap.o 中 的 .symtab 节 中 有 一 个 符号 表 条 
目 。 如 果 是 ， 请 指出 定义 该 符号 的 模块 (swap.o 或 者 m.o)、 符 号 类 型 (局 部 、 全 局 或 
者 外 部 ) 以 及 它 在 模块 中 被 分 配 到 的 节 (.text、.data、.bss 或 COMMON) 。 





code/linK/m.c ”一 code1inywap.c 
1 void swap(); 1 extern int buf [] ; 
2 2 
3 Tint af = i 2 3 int *bufp0O = &buf [0]; 
4 4 int *bufpl; 
5 int main() 5 
-| 6 void swap() 
7 swap(); 7 + 
8 return 0; 8 int temp; 
9 J} 9 
code/link/m.c 10 bufpl1 = &buf[1]; 
11 temp = *bufp0; 
12 *bufp0O = *bufpl; 
13 *bufpl = temp; 
14 } 
code/linkK/swap.c 
a)m.c b) swap.c 
图 7-5 练习 题 7. 1 的 示例 程序 
7.6 符号 解析 


链接 器 解析 符号 引用 的 方法 是 将 每 个 引用 与 它 输入 的 可 重 定位 目标 文件 的 符号 表 中 的 
一 个 确定 的 符号 定义 关联 起 来 。 对 那些 和 引用 定义 在 相同 模块 中 的 局 部 符号 的 引用 ， 符 号 
解析 是 非常 简单 明了 的 。 编 译 器 只 人 允许 每 个 模块 中 每 个 局 部 符号 有 一 个 定义 。 静 态 局 部 变 
量 也 会 有 本 地 链接 需 符 号 ， 编 译 硕 还 要 确保 它们 拥有 唯一 的 名 字 。 

不 过 ， 对 全 局 符号 的 引用 解析 就 闵 手 得 多 。 当 编译 融 遇 到 一 个 不 是 在 当前 模块 中 定义 
的 符号 (变量 或 函数 名 ) 时 ， 会 假设 该 符号 是 在 其 他 某 个 模块 中 定义 的 ， 生 成 一 个 链接 器 符 
号 表 条 目 ， 并 把 它 交 给 链接 右 处 理 。 如 果 链 接 右 在 它 的 任何 输入 模块 中 都 找 不 到 这 个 被 引 
用 符号 的 定义 ， 就 输出 一 条 (通常 很 难 阅读 的 ) 错 误 信息 并 终止 。 比 如 ， 如 果 我 们 试 着 在 一 


台 Linux 机 器 上 编译 和 链接 下 面 的 源 文 件 : 


void foo(void) ; 


] 

2 

3 int main() { 
4 foo() ; 

5 return 0; 
6 


那么 编译 融会 没有 障碍 地 运行 ， 但 是 当 链 接 需 无 法 解析 对 foo 的 引用 时 ， 就 会 终止 : 


linux> &cc -Wall -0g -0 linkerror linkerror.c 
/tmp/ccSz5uti.o: In function ‘main': 
/tmp/ccSz5uti.o(.text+0x7): undefined reference to “foo' 


对 全 局 符号 的 符号 解析 很 棘手 ， 还 因为 多 个 目标 文件 可 能 会 定义 相同 名 字 的 全 局 符 
号 。 在 这 种 情况 中 ， 链 接 佣 必须 要 人 么 标志 一 个 错误 ， 要 么 以 某 种 方法 选 出 一 个 定义 并 抛弃 
其 他 定义 。Linux 系统 采纳 的 方法 涉及 编译 器 、 汇 编 部 和 链接 锅 之 间 的 协作 ， 这 样 也 可 能 
给 不 警觉 的 程序 员 带 来 一 些 麻 烦 。 


旁 注 对 C++ 和 Java 中 链接 器 符号 的 重 整 


C++ 和 Java 都 允许 重 载 方法 ， 这 些 方 法 在 源 代 码 中 有 相同 的 名 字 ， 却 有 不 同 的 参数 
列表 。 那 么 链接 器 是 如 何 区 别 这 些 不 同 的 重 载 函数 之 间 的 差异 呢 ? C++ 和 Java 中 能 使 用 
重 载 函 数 ， 是 因为 编译 器 将 每 个 唯一 的 方法 和 参数 列表 组 合 编码 成 一 个 对 链接 器 来 说 唯一 
的 名 字 。 这 种 编码 过 程 叫做 重 整 (mangling)， 而 相反 的 过 程 叫 做 恢复 (demangling) 。 

幸运 的 是 ，C++ 和 Java 使 用 兼容 的 重 整 策略 。 一 个 被 重 整 的 类 名 字 是 由 名 字 中 字符 
的 整数 数量 ， 后 面 跟 原 始 名 字 组 成 的 。 比 如 ， 类 Foo 被 编码 成 3Foo。 方 法 被 编码 为 原始 方 
法 名 ， 后 面 加 上 __ ， 加 上 被 重 整 的 类 名 ， 再 加 上 每 个 参数 的 单字 母 编 码 。 比 如 ，FEool::bar 
(int，1long) 被 编码 为 bar 3Fooil。 重 整 全 局 变量 和 模板 名 字 的 策略 是 相似 的 。 


7.6.1 链接 病 如 何 解析 多 重 定义 的 全 局 符号 


链接 器 的 输入 是 一 组 可 重 定位 目标 模块 。 每 个 模块 定义 一 组 符号 ， 有 些 是 局 部 的 (只 
对 定义 该 符号 的 模块 可 见 ) ， 有 些 是 全 局 的 (对 其 他 模块 也 可 见 )。 如 果 多 个 模块 定义 同名 
的 全 局 符号 ， 会 发 生 什 么 呢 ? 下 面 是 Linux 编译 系统 采用 的 方法 。 

在 编译 时 ， 编 译 吕 回 汇 编 右 输出 每 个 全 局 符号 ， 或 者 是 强 (strong) 或 者 是 弱 (weak)， 
而 汇编 器 把 这 个 信息 隐 含 地 编码 在 可 重 定位 目标 文件 的 符号 表 里 。 函 数 和 已 初始 化 的 全 局 
变量 是 强 符 号 ， 未 初始 化 的 全 局 变量 是 弱 符 号 。 

根据 强 弱 符号 的 定义 ，Linux 链接 器 使 用 下 面 的 规则 来 处 理 多 重 定义 的 符号 名 : 

e 规则 1: 不 允许 有 多 个 同名 的 强 符号 。 

e 规则 2:; 如 果 有 一 个 强 符 号 和 多 个 弱 符 号 同名 ， 那 么 选择 强 符 号 。 

e 规则 3: 如 果 有 多 个 弱 符 号 同名 ， 那么 从 这 些 弱 符号 中 任意 选择 一 个 。 

比如 ， 假 设 我 们 试图 编译 和 链接 下 面 两 个 C 模块 : 


1 /* fool.c */ 
2 int main() 

3 

4 return 0; 
5 


上 
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1 /* barlic */ 
2 int main() 

3 1 

4 return 0; 
5 地 


在 这 个 情况 中 ， 链 接 需 将 生成 一 条 错误 信息 ， 因 为 强 符号 main 被 定义 了 多 次 (规则 1): 
linux> &cc fooi.c bari.c 

/tmp/ccq2Uxnd.o: In function ‘main': 

bari.c:(.text+0x0): multiple definition of ‘main' 


相似 地 ， 链 接 硕 对 于 下 面 的 模块 也 会 生成 一 条 错误 信息 ， 因 为 强 符号 x 被 定义 了 两 次 


(规则 1): 
1 /* foo2.c */ 


2 int xX = 15213; 
3 

4 int main() 

条 

6 return 0; 
7 } 


/* bar2.c */ 
int x = 15213; 


i 
} 
然而 ， 如 果 在 一 个 模块 里 x 未 被 初始 化 ， 那 么 链接 需 将 安静 地 选择 在 另 一 个 模块 中 征 
义 的 强 符 号 (规则 2): 
/* foo3.c */ 


#include <stdio.h> 
void f(void) ; 


p> 
3 
4 void f() 
5 
6 


int x = 15213; 


int main() 


{ 


OO ON OO ww NN 一 


£(); 
printfl "x = An x 
return 0; 


eh mh 
_ OO 


上 


eh 
Ny 


/* bar3.c */ 
Tnb: 二 


void f() 
{ 
x = 15212; 


NO Wm 人 一 


} 


在 运行 时 ， 涵 数 f 将 x 的 值 由 15213 改 为 15212， 这 会 给 main 困 数 的 作者 带 来 不 受 
欢迎 的 意外 1 注意 ， 链 接 顺 通常 不 会 表明 它 检测 到 多 个 x 的 定义 : 
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linux> gcc -0 foobar3 foo3.c bar3.c 
linux> ./foobar3 


X = 15212 

如 果 x 有 两 个 弱 定义 ， 也 会 发 生 相 同 的 事情 (规则 3): 
1 /* foo4.c */ 

2 #include <stdio.h> 

3 void f(void); 

4 

5 1nt 买 

6 

7 int main() 

8 二 

9 x = 15213; 

10 Fy 

11 printft"x = Wd\in", x)3 
12 return 0; 

13  } 


/* bar4.c */ 
int 次， 


{ 


: 
2 

3 

4 void f() 
5 

6 x = 15212; 
7 


} 
规则 2 和 规则 3 的 应 用 会 造成 一 些 不 易 察觉 的 运行 时 错误 ， 对 于 不 警觉 的 程序 员 来 
说 ， 是 很 难 理解 的 ， 尤 其 是 如 果 重 复 的 符号 定义 还 有 不 同 的 类 型 时 。 考 虑 下 面 这 个 例子 ， 


其 中 x 不幸 地 在 一 个 模块 中 定义 为 int， 而 在 另 一 个 模块 中 定义 为 double: 
/* foo5.c */ 


] 

2 #include <stdio.h> 

3 void f(void) ; 

4 

5 int y = 15212; 

6 int 区 三 195213;» 

7 

8 int main() 

9 + 
10 f(s 
11 printf("x = Ox%x y = Ox%hx \n", 
12 3 
13 return 0; 
14 } 

1 /* bar5.c */ 

2 double xX; 

3 

4 void f() 

5 攻 

6 X = -0.0; 

7 
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在 一 台 x86-64/Linux 机 器 上 ，double 类 型 是 8 个 字 节 ， 而 int 类 型 是 4 个 字 节 。 在 
我 们 的 系统 中 ，x 的 地 址 是 0x601020，y 的 地 址 是 0x601024。 因 此 ，bar5.c 的 第 6 行 中 
的 赋值 x= -0.0 将 用 负 零 的 双 精度 浮 点 表示 覆盖 内 存 中 x 和 y 的 位 置 (foo5.c 中 的 第 5 行 
和 第 6 行 )! 

linux> gcc -Wall -05 -o foobars foo5.c baro5.c 

/usr/bin/ld: Warning: alignment 4 of Symbol ‘x' in /tmp/cclUFK5g.o 

is smaller than 8 in /tmp/ccbTLcb9.o 


linux> ./foobar5s 
X = Ox0 y = 0x80000000 


这 是 一 个 细微 而 令 人 讨厌 的 错误 ， 尤其 是 因为 它 只 会 触发 链接 器 发 出 一 条 警告 ， 而 且 
通常 要 在 程序 执行 很 久 以 后 才 表 现 出 来 ， 且 远离 错误 发 生地 。 在 一 个 拥有 成 百 上 千 个 模块 
的 大 型 系统 中 ， 这 种 类 型 的 错误 相当 难以 修正 ， 尤 其 因为 许多 程序 员 根 本 不 知道 链接 器 是 
如 何 工 作 的 。 当 你 怀疑 有 此 类 错误 时 ， 用 像 GCC-fno-common 标志 这 样 的 选项 调用 链接 
器 ， 这 个 选项 会 告诉 链接 器 ， 在 遇 到 多 重 定义 的 全 局 符号 时 ， 和 触发 一 个 错误 。 或 者 使 用 
-Werror 选 项 ， 它 会 把 所 有 的 警告 都 变 为 错误 。 

在 7.5 节 中 ， 我 们 看 到 了 编译 器 如 何 按照 一 个 看 似 绝对 的 规则 来 把 符号 分 配 为 COM- 
MON 和 .bss。 实 际 上 ， 和 采用 这 个 惯例 是 由 于 在 某 些 情况 中 链接 器 允许 多 个 模块 定义 同名 的 
全 局 符号 。 当 编译 器 在 翻译 某 个 模块 时 ， 遇 到 一 个 弱 全 局 符号 ， 比 如 说 x， 它 并 不 知道 其 他 
模块 是 否 也 定义 了 x， 如 果 是 ， 它 无 法 预测 链接 器 该 使 用 x 的 多 重 定义 中 的 哪 一 个 。 所 以 编译 
器 把 x 分 配 成 COMMON， 把 决定 权 留 给 链接 右 。 男 一 方面 ， 如 果 x 初始 化 为 0， 那 么 它 是 一 个 
强 符号 (因此 根据 规则 2 必须 是 唯一 的 )， 所 以 编译 器 可 以 很 自信 地 将 它 分 配 成 .pss。 类 似 地 ， 
静态 符号 的 构造 就 必须 是 唯一 的 ， 所 以 编译 器 可 以 自信 地 把 它们 分 配 成 .data 或 .bss。 

攻 s 练习 题 7.2 在 此 题 中 ，REF (X.i) 一 DEF (x.k) 表 示 链 接 器 将 把 模块 中 对 符号 x 的 任意 

引用 与 模块 k 中 x 的 定义 关联 起 来 。 对 于 下 面 的 每 个 示例 ， 用 这 种 表示 法 来 说 明 链 接 器 

将 如 何 解 析 每 个 模块 中 对 多 重 定 义 符号 的 引用 。 如 果 有 一 个 链接 时 错误 (规则 1)， 写 

“错误 ”。 如 果 链 接 器 从 定义 中 任意 选择 一 个 (规则 3)， 则 写 “ 未 知 ”。 











A. /* Module 1 */ /* Module 2 */ 
int main(l) int main:; 
{ int p20() 
} 所 
} 
(a) REF(main.1)—> DEF( .| ) 
(b) REF(main.2) 一 DEF( ) 
B. /* Module 1 */ /* Module 2 */ 
void main() int main = 1; 
‘ int p2() 
} 长 
} 
(a) REF(main.1) 一 DEF( a 
(b) REF(main.2) 一 DEF( _) 
C. /* Module 1 */ /* Module 2 */ 
An Ks double x = 1.0; 
void main() int p20() 
pi { 


} } 
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(a) REF(X.1) 一 DEF( .  ) 
(b) REF(x.2) —> DEF(  _ . 和 





7.6.2 与 静态 库 链 接 


迄今 为 止 ， 我 们 都 是 假设 链接 器 读 取 一 组 可 重 定 位 目标 文件 ， 并 把 它们 链接 起 来 ， 形 
成 一 个 输出 的 可 执行 文件 。 实 际 上 ， 所 有 的 编译 系统 都 提供 一 种 机 制 ， 将 所 有 相关 的 目标 
模块 打包 成 为 一 个 单独 的 文件 ， 称 为 静态 库 (static library)， 它 可 以 用 做 链接 器 的 输入 。 
当 链 接 器 构造 一 个 输出 的 可 执行 文件 时 ， 它 只 复制 静态 库 里 被 应 用 程序 引用 的 目标 模块 。 

为 什么 系统 要 支持 库 的 概念 呢 ? 以 ISO C99 为 例 ， 它 定义 了 一 组 广泛 的 标准 IIO、 字 
符 串 操作 和 整数 数学 函数 ， 例 如 atoi、Pprintf、scanf、strcpy 和 rand。 它 们 在 libc. 
a 库 中 ， 对 每 个 C 程序 来 说 都 是 可 用 的 。ISO C99 还 在 libm.a 库 中 定义 了 一 组 广泛 的 浮 
点 数学 函数 ， 例 如 sin、cos 和 sqrt。 

让 我 们 来 看 看 如 果 不 使 用 静态 库 ， 编 译 右 开发 人 员 会 使 用 什么 方法 来 加 用 户 提 供 这 些 
困 数 。 一 种 方法 是 让 编译 器 辨认 出 对 标准 函数 的 调用 ， 并 直接 生成 相应 的 代码 。Pascal (只 
提供 了 一 小 部 分 标准 函数 ) 采 用 的 就 是 这 种 方法 ， 但 是 这 种 方法 对 C 而 言 是 不 合适 的 ， 因 
为 C 标准 定义 了 大 量 的 标准 函数 。 这 种 方法 将 给 编译 器 增加 显著 的 复杂 性 ， 而 且 每 次 水 
加 、 删 除 或 修改 一 个 标准 函数 时 ， 就 需要 一 个 新 的 编译 器 版 本 。 然 而 ， 对 于 应 用 程序 员 而 
， 这 种 方法 会 是 非常 方便 的 ， 因 为 标准 函数 将 总 是 可 用 的 。 

另 一 种 方法 是 将 所 有 的 标准 C 函数 都 放 在 一 个 单独 的 可 重 定位 目标 模块 中 (比如 说 
libc.o 中 ) 应 用 程序 员 可 以 把 这 个 模块 链接 到 他 们 的 可 执行 文件 中 : 


linux> gcc main.c /usr/1ib/libc.o 


这 种 方法 的 优点 是 它 将 编译 器 的 实现 与 标准 函数 的 实现 分 离开 来 ， 并 且 仍 然 对 程序 员 
保持 适度 的 便利 。 然 而 ， 一 个 很 大 的 缺点 是 系统 中 每 个 可 执行 文件 现在 都 包含 着 一 份 标准 
函数 集合 的 完全 副本 ， 这 对 磁盘 空间 是 很 大 的 浪费 。( 在 一 个 典型 的 系统 上 ，1ibc.a 大 约 
是 5MB， 而 libm.a 大 约 是 2MB,) 更 糟 的 是 ， 每 个 正在 运行 的 程序 都 将 它 自 己 的 这 些 函 数 
的 副本 放 在 内 存 中 ， 这 是 对 内 存 的 极度 浪费 。 另 一 个 大 的 缺点 是 ， 对 任何 标准 函数 的 任何 
改变 ， 无 论 多 么 小 的 改变 ， 都 要 求 库 的 开发 人 员 重 新 编译 整个 源 文件 ， 这 是 一 个 非常 耗 时 
的 操作 ， 使 得 标准 函数 的 开发 和 维护 变 得 很 复杂 。 

我 们 可 以 通过 为 每 个 标准 函数 创建 一 个 独立 的 可 重 定 位 文件 ， 把 它们 存放 在 一 个 为 大 
家 都 知道 的 目录 中 来 解决 其 中 的 一 些 问 题 。 然 而 ， 这 种 方法 要 求 应 用 程序 员 显 式 地 链接 合 
适 的 目标 模块 到 它们 的 可 执行 文件 中 ， 这 是 一 个 容易 出 错 而 且 耗 时 的 过 程 : 


linux> gcc main.c /usr/1lib/printf.o /usr/lib/scanf.o ... 


静态 库 概 念 被 提出 来 ， 以 解决 这 些 不 同方 法 的 缺点 。 相 关 的 函数 可 以 被 编译 为 独立 的 
目标 模块 ， 然 后 封装 成 一 个 单独 的 静态 库 文件 。 然 后 ， 应 用 程序 可 以 通过 在 命令 行 上 指定 
单独 的 文件 名 字 来 使 用 这 些 在 库 中 定义 的 函数 。 比 如 ， 使 用 C 标准 库 和 数学 库 中 函数 的 程 
序 可 以 用 形式 如 下 的 命令 行 来 编译 和 链接 : 


linux> gcc main.c /usr/lib/libm.a /usr/1lib/libc.a 


在 链接 时 ， 链 接 器 将 只 复制 被 程序 引用 的 目标 模块 ， 这 就 减少 了 可 执行 文件 在 磁盘 和 内 
存 中 的 大 小 。 另 一 方面 ， 应 用 程序 员 只 需要 包含 较 少 的 库 文件 的 名 字 ( 实 际 上 ，C 编译 需 驱 


ll 
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动 程序 总 是 传送 libc.a 给 链接 器 ， 所 以 前 面 提 到 的 对 libc.a 的 引用 是 不 必要 的 )。 
在 Linux 系统 中 ， 静 态 库 以 一 种 称 为 存档 (archive) 的 特殊 文件 格式 存放 在 磁盘 中 。 存 


档 文件 是 一 组 连接 起 来 的 可 重 定 位 目标 文件 的 集合 ， 


件 的 大 小 和 人 位置。 存档 文件 名 由 后 缀 .a 标识 。 
为 了 使 我 们 对 库 的 讨论 更 加 形象 具体 ， 考 虑 图 7-6 中 的 两 个 回 量 例 程 。 每 个 例 程 ， 定 
义 在 它 自 己 的 目标 模块 中 ， 对 两 个 输入 向 量 进行 一 个 向 量 操作 ， 并 把 结果 存放 在 一 个 输出 
向 量 中 。 每 个 例 程 有 一 个 副作用 ， 会 记录 它 自 己 被 调用 的 次 数 ， 每 次 被 调用 会 把 一 个 全 局 


有 一 个 头 部 用 来 描述 每 个 成 员 目 标 文 


变量 加 1。 ( 当 我 们 在 7. 12 节 中 解释 位 置 无 关 代 码 的 思想 时 会 起 作用 。) 
code/link/addvec.c code/link/multvec.c 
1 int addcnt = 0; 1 int multcnt = 0; 
2 2 
3 void addvec(int *x, int *y, 3 void multvec(int *x, int *y, 
4 int w*z, int n) 4 nt *z, int n) 
5 纪 外 艺 
6 int 工 ; 6 二 
7 7 
8 addcnt++; 8 multcnt++; 
9 9 
10 for (i = 0; i < n; i++) 10 for (i = 0: 1 < n: it++) 
11 z[i] = x[i] + y[i]; 11 z[i] = x[il * y[i]; 
12  】} 12 
code/link/addvec.c ——— code/link/multvec.c 
a) addvec.o b)multvec.o 


图 7-6 libvector 库 中 的 成 员 目 标 文 件 
要 创建 这 些 函 数 的 一 个 静态 库 ， 我 们 将 使 用 AR 工具 ， 如 下 : 


linux> gcc -c addvec.c multvec.c 
linux> ar rcs libvector.a addvec.o multvec.o 


为 了 使 用 这 个 库 ， 我 们 可 以 编写 一 个 应 用 ， 比 如 图 7-7 中 的 main2.c， 


它 调 用 addvec 


库 例 程 。 包 含 ( 或 涉 ) 文 件 vector.h 定 义 了 1libvector.a 中 例 程 的 函数 原 型 。 


code/link/main2.c 
1 #include <stdio.h> 
2 #include "vector.h" 
3 
4 int x[2] = {1, 2}; 
5 int y[2] = {3, 4}; 
6 int z[2]j; 
7 
8 int main() 
9 攻 
10 addvec(x, y, z, 2); 
11 printf("z = [%d %d]j\n"，z[0] ，z[1] ) ; 
12 return 0; 
13 
code/link/main2.c 


图 7-7 示例 程序 2。 这 个 程序 调用 1ibvector 库 中 的 函数 


为 了 创建 这 个 可 执行 文件 ， 我 们 要 编译 和 链接 输入 文件 main.o 和 libvector .a: 
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linux> gcc -c main2.c 
linux> gcc -static -0 prog2c main2.0 ./libvector.a 


或 者 等 价 地 使 用 ， 


linux> gcc -cc main2.c 
linux> gcc -static -0 prog2c main2.0 -L. -lvector 


图 7-8 概括 了 链接 器 的 行为 。-static 参数 告诉 编译 器 驱动 程序 ， 链 接 器 应 该 构建 一 
个 完全 链接 的 可 执行 目标 文件 ， 它 可 以 加 载 到 内 存 并 运行 ， 在 加 载 时 无 须 更 进一步 的 链 
接 。-lvector 参数 是 1ibpvector .a 的 缩写 ，-L. 参 数 告 诉 链接 器 在 当前 目录 下 查找 Lib- 


VECLOFE .aAs 


源 文件 main2.c Vector .hn 


翻译 需 
(cpp, ecl, as) 


可 重 定位 目标 文件 ”并 2.9 


链接 右 (1d ) 
prog2c 完全 链接 的 
可 执行 目标 文件 
图 7-8 与 静态 库 链接 


当 链 接 器 运行 时 ， 它 判定 main2.o 引 用 了 addvec.o 定 义 的 addvec 符号 ， 所 以 复制 
addvec.o 到 可 执行 文件 。 因 为 程序 不 引用 任何 由 multvec.o 定义 的 符号 ， 所 以 链接 絮 就 
不 会 复制 这 个 模块 到 可 执行 文件 。 链 接 器 还 会 复制 1ibc.a 中 的 printf.o 模块 ， 以 及 许 
多 C 运行 时 系统 中 的 其 他 模块 。 


7.6.3 链接 器 如 何 使 用 静态 库 来 解析 引用 


虽然 静态 库 很 有 用 ， 但 是 它们 同时 也 是 一 个 程序 员 迷 惑 的 源头 ， 原 因 在 于 Linux 链接 
器 使 用 它们 解析 外 部 引用 的 方式 。 在 符号 解析 阶段 ， 链 接 器 从 左 到 右 按照 它们 在 编译 器 驱 
动 程序 命令 行 上 出 现 的 顺序 来 扫描 可 重 定位 目标 文件 和 存档 文件 。( 驱 动 程序 自动 将 命令 
行 中 所 有 的 .c 文 件 翻译 为 .o 文 件 ,) 在 这 次 扫描 中 ， 链 接 器 维护 一 个 可 重 定位 目标 文件 的 
集合 下 (这 个 集合 中 的 文件 会 被 合并 起 来 形成 可 执行 文件 )， 一 个 未 解析 的 符号 ( 即 引 用 了 
但 是 尚未 定义 的 符号 ) 集 合 U， 以 及 一 个 在 前 面 输入 文件 中 已 定义 的 符号 集合 D。 初 始 时 ， 
下 、U 和 DD 均 为 空 。 
e 对 于 命令 行 上 的 每 个 输入 文件 f/， 链 接 器 会 判断 f 是 一 个 目标 文件 还 是 一 个 存档 文 
件 。 如 果 f 是 一 个 目标 文件 ， 那 么 链接 器 把 f 添加 到 玉 ， 修 改 U 和 DD 来 反映 了 中 
的 符号 定义 和 引用 ， 并 继续 下 一 个 输入 文件 。 
e 如 果 f 是 一 个 存档 文件 ， 那 么 链接 器 就 尝试 匹配 U 中 未 解析 的 符号 和 由 存档 文件 成 员 定 
义 的 符号 。 如 果 某 个 存档 文件 成 员 m， 定义 了 一 个 符号 来 解析 U 中 的 一 个 引用 ， 那 么 就 
将 m 加 到 巨 中 ， 并且 链接 器 修改 U 和 DD 来 反映 m 中 的 符号 定义 和 引用 。 对 存档 文件 中 
所 有 的 成 员 目 标 文件 都 依次 进行 这 个 过 程 ， 直 到 U 和 DD 都 不 再 发 生变 化 。 此 时 ， 任 何不 
包含 在 王 中 的 成 员 目 标 文件 都 简单 地 被 丢弃 ， 而 链接 器 将 继续 处 理 下 一 个 输入 文件 。 





libvector.a libc.a 静态 库 










printf.o 和 其 他 
printf.o 调 用 的 模块 
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e 如 果 当 链接 器 完成 对 命令 行 上 输入 文件 的 扫描 后 ，U 是 非 空 的 ， 那 么 链接 器 就 会 输出 一 
个 错误 并 终止 。 否 则 ， 它 会 合并 和 重 和 定位 五 中 的 目标 文件 ， 构 建 输出 的 可 执行 文件 。 
不 幸 的 是 ， 这 种 算法 会 导致 一 些 令 人 困扰 的 链接 时 错误 ， 因 为 命令 行 上 的 库 和 目标 文 
件 的 顺序 非常 重要 。 在 命令 行 中 ， 如 果 定 义 一 个 符号 的 库 出 现在 引用 这 个 符号 的 目标 文件 
之 前 ， 那 么 引用 就 不 能 被 解析 ， 链 接 会 失败 。 比 如 ， 考 虑 下 面 的 命令 行 发 生 了 什么 ? 


linux> gcc -static ./libvector.a main2.c 
/tmp/cc9XH6Rp.o0: In function 'main': 
/tmp/cc9XH6Rp.o(.text+0x18): undefined reference to ‘'addvec' 


在 处 理 libvector.a 时 ，U 是 空 的 ， 所 以 没有 libvector.a 中 的 成 员 目 标 文件 会 添 
加 到 五 中 。 因 此 ， 对 addvec 的 引用 是 绝 不 会 被 解析 的 ， 所 以 链接 器 会 产生 一 条 错误 信息 
并 终止 。 

关于 库 的 一 般 准 则 是 将 它们 放 在 命令 行 的 结尾 。 如 果 各 个 库 的 成 员 是 相互 独立 的 (也 
就 是 说 没有 成 员 引 用 男 一 个 成 员 定 义 的 符号 )， 那 么 这 些 库 就 可 以 以 任何 顺序 放置 在 命令 
行 的 结尾 处 。 男 一 方面 ， 如 果 库 不 是 相互 独立 的 ， 那 么 必须 对 它们 排序 ， 使 得 对 于 每 个 被 
存档 文件 的 成 员外 部 引用 的 符号 s， 在 命令 行 中 至 少 有 一 个 s 的 定义 是 在 对 s 的 引用 之 后 
的 。 比 如 ， 假 设 foo.c 调 用 1ibx.a 和 1ibz.a 中 的 函数 ， 而 这 两 个 库 又 调用 liby.a 中 
的 函数 。 那 么 ， 在 命令 行 中 libx.a 和 1ibz.a 必须 处 在 liby.a 之 前 : 


linux> gcc foo.c libx.a libz.a liby.a 


如 果 需 要 满足 依赖 需求 ， 可 以 在 命令 行 上 重复 库 。 比 如 ， 假 设 foo.c 调用 Libx.a 中 
的 函数 ， 该 库 又 调用 liby.a 中 的 函数 ， 而 liby.a 又 调用 Libx.a 中 的 函数 。 那 么 Libx. 


linux> gcc foo.c libx.a liby.a libx.a 


男 一 种 方法 是 ， 我们 可 以 将 1ibx.a 和 1iby .a 合并 成 一 个 单独 的 存档 文件 。 

证 豆 练习 题 7.3 a 和 b 表 示 当 前 目录 中 的 目标 模块 或 者 静态 库 ， 而 a>b 表示 a 依赖 于 b， 也 
就 是 说 b 定 义 了 一 个 被 a 引用 的 符号 。 对 于 下 面 每 种 场景 ， 请 给 出 最 小 的 命令 行 ( 即 一 个 
含有 最 少数 量 的 目标 文件 和 库 参 数 的 命令 )， 使 得 静态 链接 器 能 解析 所 有 的 符号 引用 。 

As BD. Lb.a 
BB ro libana = 111 
Cn Bo libra = I1ibya Rl Tibya- Tibs .8 == 5.6 

7.7 重 定 位 
一 且 链 接 需 完成 了 符号 解析 这 一 步 ， 就 把 代码 中 的 每 个 符号 引用 和 正好 一 个 符号 定义 

( 即 它 的 一 个 输入 目标 模块 中 的 一 个 符号 表 条 目 ) 关 联 起 来 。 此 时 ， 链 接 器 就 知道 它 的 输入 

目标 模块 中 的 代码 节 和 数据 节 的 确切 大 小 。 现 在 就 可 以 开始 重 定 位 步骤 了 ， 在 这 个 步骤 

中 ， 将 合并 输入 模块 ， 并 为 每 个 符号 分 配 运行 时 地 址 。 重 定位 由 两 步 组 成 : 

@ 重 定 位 节 和 符号 定义 。 在 这 一 步 中 ， 链 接 器 将 所 有 相同 类 型 的 节 合并 为 同一 类 型 的 
新 的 聚合 节 。 例 如 ， 来 自 所 有 输入 模块 的 .data 节 被 全 部 合并 成 一 个 节 ， 这 个 节 成 
为 输出 的 可 执行 目标 文件 的 .data 节 。 然 后 ， 链 接 器 将 运行 时 内 存 地 址 赋 给 新 的 聚 
合 节 ， 赋 给 输入 模块 定义 的 每 个 节 ， 以 及 赋 给 输入 模块 定义 的 每 个 符号 。 当 这 一 步 
完成 时 ， 程 序 中 的 每 条 指令 和 全 局 变量 都 有 唯一 的 运行 时 内 存 地 址 了 。 
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9 重 定位 节 中 的 符号 引用 。 在 这 一 步 中 ， 链 接 需 修改 代码 节 和 数据 节 中 对 每 个 符号 的 
引用 ， 使 得 它们 指向 正确 的 运行 时 地 址 。 要 执行 这 一 步 ， 链 接 器 依赖 于 可 重 定位 目 
标 模块 中 称 为 重 定位 条 目 (relocation entry) 的 数据 结构 ， 我 们 接 下 来 将 会 描述 这 种 
数据 结构 。 


7.7.1 重 定位 条 目 


当 汇 编 带 生成 一 个 目标 模块 时 ， 它 并 不 知道 数据 和 代码 最 终 将 放 在 内 存 中 的 什么 位 
置 。 它 也 不 知道 这 个 模块 引用 的 任何 外 部 定义 的 函数 或 者 全 局 变量 的 位 置 。 所 以 ,无论 何 
时 汇编 硕 遇 到 对 最 终 位置 未 知 的 目标 引用 ， 它 就 会 生成 一 个 重 定位 条 目 ， 告 诉 链接 需 在 将 
目标 文件 合并 成 可 执行 文件 时 如 何 修改 这 个 引用 。 代 码 的 重 定位 条 目 放 在 .rel.text 中 。 
已 初始 化 数据 的 重 定 位 条 目 放 在 .rel.data 中 。 

图 7-9 展示 了 ELF 重 定位 条 目的 格式 。offset 是 需要 被 修改 的 引用 的 节 偏 移 。symbol 
标识 被 修改 引用 应 该 指 同 的 符号 。type 告知 链接 器 如 何 修改 新 的 引用 。addend 是 一 个 有 
号 第 数 ， 一 些 类 型 的 重 定位 要 使 用 它 对 被 修改 引用 的 值 做 偏 移 调整 。 


code/link/elfstructs.c 
1 typedef struct { 
2 long offset,; /* Offset of the reference to relocate */ 
3 long type:32, /* Relocation type */ 
3 Symbol:32; /* Symbol table index */ 
5 long addend ; /* Constant part of relocation expression */ 
6 } Elf64_Rela; 

code/link/elfstructs.c 


名 79 ”ELF 重 定位 条 目 。 每 个 条 目 表示 一 个 必须 被 重 定位 的 引用 ， 并 指明 如 何 计算 被 修改 的 引用 


ELF 定义 了 32 种 不 同 的 重 定位 类 型 ， 有 些 相 当 隐 秘 。 我 们 只 关心 其 中 两 种 最 基本 的 
重 定位 类 型 : 
e R_X86 64 PC32。 重 定位 一 个 使 用 32 位 PC 相对 地 址 的 引用 。 回 想 一 下 3. 6. 3 市， 
一 个 PC 相对 地 址 就 是 距 程序 计数 器 (PC) 的 当前 运行 时 值 的 偏 移 量 。 当 CPU 执行 
一 条 使 用 PC 相对 寻 址 的 指令 时 ， 它 就 将 在 指令 中 编码 的 32 位 值 加 上 PC 的 当前 运 
行 时 值 ， 得 到 有 效 地 址 (如 call 指令 的 目标 )，PC 值 通 常 是 下 一 条 指令 在 内 存 中 的 
地 址 。 

e@eRX86 64 32。 重 定位 一 个 使 用 32 位 绝对 地 址 的 引用 。 通 过 绝对 寻 址 ，CPU 直接 
使 用 在 指令 中 编码 的 32 位 值 作 为 有 效 地 址 ， 不 需要 进一步 修改 。 

这 两 种 重 定 位 类 型 支持 x86-64 小 型 代码 模型 (small code model) ， 该 模型 假设 可 执行 目标 
文件 中 的 代码 和 数据 的 总 体 大 小 小 于 2GB， 因 此 在 运行 时 可 以 用 32 位 PC 相对 地 址 来 访问 。 
GCC 默认 使 用 小 型 代码 模型 。 大 于 2GB 的 程序 可 以 用 -mcmodel=medium( 中 型 代码 模型 ) 
和 -mcmodel=large( 大 型 代码 模型 ) 标 志 来 编译 ， 不 过 在 此 我 们 不 讨论 这 些 模型 。 


7.7.2 重 定 位 符号 引用 


图 7-10 展示 了 链接 器 的 重 定位 算法 的 伪 人 代码。 第 1 行 和 第 2 行 在 每 个 节 s 以 及 与 每 个 
节 相 关联 的 重 定位 条 目 r 上 和 迭代 执行 。 为 了 使 描述 具体 化 ， 假 设 每 个 节 s 是 一 个 字 节 数 
组 ， 每 个 重 定位 条 目 上 是 一 个 类 型 为 E1f64 Rela 的 结构 ， 如 图 7-9 中 的 定义 。 另 外 ， 还 


480 第 二 部 分 站 系统 上 运行 程序 


假设 当 算 法 运行 时 ， 链接 器 已 经 为 每 个 节 ( 用 ADDR(s) 表 示 ) 和 每 个 符号 都 选择 了 运行 时 地 
址 (用 ADDR (r .symbol) 表 示 )。 第 3 计 人 关 基 入 要 被 通 这 检 的 4 字 节 引用 的 数组 s 中 的 
地 址 。 如 果 这 个 引用 使 用 的 是 PC 相对 寻 址 ， 那 么 它 就 用 第 5 一 95 行 来 重 定位 。 如 果 该 引用 
使 用 的 是 绝对 寻 址 ， 它 就 通过 第 11 一 13 行 来 重 定 位 。 


foreach section s 1{ 
foreach relocation entry r | 
refptr = s + r.offset; /* ptr to reference to be relocated */ 


/* Relocate a PC-relative reference */ 
if (r.type == R_X86_64_PC32) { 
refaddr = ADDR(s) + r.offset; /* ref's run-time address */ 
*refptr = (unsigned) (ADDR(r.symbol) + r.addend - refaddr) ; 
了 


/* Relocate an absolute reference */ 
if (r.type == R_X86_64_32) 
*refptr = (unsigned) (ADDR(r.symbol) + r.addend); 





几 710 重 定位 算法 
让 我 们 来 看 看 链接 器 如 何 用 这 个 算法 来 重 定 位 图 7-1 示例 程序 中 的 引用 。 图 7-11 给 出 
了 (用 obpjdump-dx main.o 产生 的 )GNU OBJDUMP 工具 产生 的 main.o 的 反 汇 编 代 码 。 


code/link/main-relo.d 


0000000000000000 <main>: 


, 
2 0: 48 83 ec 08 sub $0x8 ,hrsp 

3 4: be 02 00 00 00 mov $Ox2 , hesi 

4 9: bf 00 00 00 00 mov $OxO , pedi Yedi = array 

与 a: R X86 64 32 array Relocation entry 
6 e: e8 00 00 00 00 callq 13 <main+0x13> sum() 

» f: R_X86_64_PC32 sum-0Ox4 Relocation entry 
8 13: 48 83 c4 08 add $Ox8 ,hrsp 

9 贡生 c3 retq 


code/link/main-relo.d 


图 7-11 main.o 的 代码 和 重 定位 条 目 。 原 始 C 代码 在 图 7-1 中 


main 困 数 引用 了 两 个 全 局 符号 : array 和 sum。 为 每 个 引用 ， 汇 编 器 产生 一 个 重 定 
位 条 目 ， 显 示 在 引用 的 后 面 一 行 上 。. 这些 重 定位 条 目 告诉 链接 器 对 sum 的 引用 要 使 用 32 
位 PC 相对 地 址 进行 重 定位 ， 而 对 array 的 引用 要 使 用 32 位 绝对 地 址 进行 重 定 位 。 接 下 
来 两 节 会 详细 介绍 链接 需 是 如 何 重 定 位 这 些 引 用 的 。 

1. 重 定 位 PC 相对 引用 

图 7-11 的 第 6 行 中 ， 郴 数 main 调用 sum 图 数 ，sum 田 数 是 在 模块 sum.o 中 定义 的 。 


加 ”回想 一 下 ， 重 定位 条 目 和 指令 实际 上 存放 在 目标 文件 的 不 同 节 中 。 为 了 方便 ，OBJDUMP 工具 把 它们 显示 
在 一 起 。 
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call 指令 开始 于 市 仿 移 0xe 的 地 方 ， 包 括 1 字 节 的 操作 码 0xe8， 后 面 跟着 的 是 对 目标 
sum 的 32 位 PC 相对 引用 的 占 位 符 。 

相应 的 重 定 位 条 目 r 由 4 个 字段 组 成 : 

r.offset = Oxf 

r.symbol = sum 

r.type = R_X86_64_PC32 

r.addend = -4 

这 些 字 有 段 告诉 链接 器 修改 开始 于 偏 移 量 0xf 处 的 32 位 PC 相对 引用 ， 这 样 在 运行 时 它 
会 指向 sum 例 程 。 现 在 ， 假 设 链接 器 已 经 确定 


ADDR(s) = ADDR(.text) = 0x4004d0 


和 
ADDR(r.symbol) = ADDR(sum) = 0x4004e8 


使 用 图 7-10 中 的 算法 ， 链 接 器 首先 计算 出 引用 的 运行 时 地 址 (第 7 行 ): 
refaddr = ADDR(s) + r.offset 

Ox4004d0O + Oxf 

Ox4004df 

然后 ， 更 新 该 引用 ， 使 得 它 在 运行 时 指 问 sum 程序 (第 8 行 ): 


*refptr = (unsigned) (ADDR(r.symbol) + r.addend - refaddr) 
= (unsigned) (Ox4004e8 + (-4) — Ox4004df) 
= (unsigned) (Ox5) 


在 得 到 的 可 执行 目标 文件 中 ，call 指令 有 如 下 的 重 定 位 的 形式 : 
4004de: e8 05 00 00 00 callq 4004e8 <sum> sum() 


在 运行 时 ，call 指令 将 存放 在 地 址 0x4004de 处 。 当 CPU 执行 call 指令 时 ，PC 的 
值 为 0x4004e3， 即 紧 随 在 call 指令 之 后 的 指令 的 地 址 。 为 了 执行 这 条 指令 ，CPU 执行 
以 下 的 步骤 : 

1) 将 PC 压 入 栈 中 

2) PC <— PC 十 0x5 一 0x4004e3 十 0x5 = 0x4004e8 


因此 ， 要 执行 的 下 一 条 指令 就 是 sum 例 程 的 第 一 条 指令 ， 这 当然 就 是 我 们 想 要 的 ! 

2. 重 定 位 绝对 引用 

重 定 位 绝对 引用 相当 简单 。 例 如 ， 图 7-11 的 第 4 行 中 ，mov 指令 将 array 的 地 址 (一 
个 32 位 立即 数值 ) 复 制 到 寄存 器 $edi 中 。mov 指令 开始 于 节 偏 移 量 0x9 的 位 置 ， 包 括 1 字 
节操 作 码 0xbf， 后 面 跟 着 对 array 的 32 位 绝对 引用 的 占 位 符 。 

对 应 的 占 位 符 条 目 r 包括 4 个 字段 : 


r.offset = Oxa 
r.symbol = array 
r.type = R_X86_64_32 
r.addend = 0 


这 些 字段 告诉 链接 器 要 修改 从 偏 移 量 0xa 开始 的 绝对 引用 ， 这 样 在 运行 时 它 将 会 指向 
array 的 第 一 个 字 节 。 现 在 ， 假 设 链接 器 已 经 确定 
ADDR(r .symbol) = ADDR(array) = Ox601018 


链接 需 使 用 图 7-10 中 算法 的 第 13 行 修改 了 引用 


*refptr = (unsigned) (ADDR(r.symbol) + r.addend) 
= (unsigned) (Ox601018 + 0) 
= (unsigned) (Ox601018) 


在 得 到 的 可 执行 目标 文件 中 ， 该 引用 有 下 面 的 重 定 位 形式 : 
4004d9: bf 18 10 60 00 mOV $Ox601018,%edi Yedi = &array 


综合 到 一 起 ， 图 7-12 给 出 了 最 终 可 执行 目标 文件 中 已 重 定位 的 .text 节 和 .data 节 。 在 加 
载 的 时 候 ， 加 载 器 会 把 这 些 节 中 的 字 节 直接 复制 到 内 存 ， 不 再 进行 任何 修改 地 执行 这 些 指令 ，。 


00000000004004d0 <main>: 
4004d0: 48 83 ec 08 $0x8 ,hrsp 
4004d4: be 02 00 00 00 $Ox2 ,yesi 
4004d9: bf 18 10 60 00 $0Ox601018,%edi Kedi = garray 
4004de: ee8 05 00 00 00 4004e8 <sum> sum() 
4004e3: 48 83 c4 08 $Ox8,%rsp 
4004e7: c3 


00000000004004e8 
4004e8: b8 00 mo $Ox0 , Wheax 
4004ed: ba 00 mov $Ox0 , pedx 
4004f2: eb 09 jmp 4004fd <sum+0x15> 
4004f4: 48 63 movslq hedx,hrcx 
4004f7: 03 04 add (hrdi ,HECK, 4) ,ha 
4004fa: 83 c2 add $Oxl ,Wedx 
4004fd: 39 f2 cmp hesi,hedx 
4004ff: 7c f3 和 4004f4 <sum+Oxc> 
400501: f3 c3 repz retq 





a) 已 重 定位 的 .text 节 


1 O0000000000601018 <array>: 
2 601018: 01 00 00 00 02 00 00 00 


b) 已 重 定 位 的 .data 他 
图 7-12 可 执行 文件 prog 的 已 重 定 位 的 .text 节 和 .data 节 。 原 始 的 CC 代码 在 图 7-1 中 


攻 汪 练习 题 7. 4 本 题 是 关于 图 7-12a 中 的 已 重 定位 程序 的 。 
A. 第 5 行 中 对 sum 的 重 定 位 引用 的 十 六 进 制 地 址 是 多 少 ? 
B. 第 5 行 中 对 sum 的 重 定位 引用 的 十 六 进 制 值 是 多 少 ? 

ES 练习 题 7.5 考虑 目标 文件 m.o 中 对 swap 函数 的 调用 (图 7-5)。 
9: e8 00 00 00 00 callq  e “main+Oxe> swap() 


它 的 重 定 位 条 目 如 下 ; 


r.offset = Oxa 

r.symbol = swap 

r.type = R_X86_64_PC32 
r.addend = -4 


现在 假设 链接 器 将 m.o 中 的 .text 重 定位 到 地 址 0x4004d0， 将 swap 重 定 位 到 地 址 
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0x4004e8。 那 么 callg 指令 中 对 swap 的 重 定 位 引用 的 值 是 什么 ? 


7.8 可 执行 目标 文件 


我 们 已 经 看 到 链接 器 如 何 将 多 个 目标 文件 合并 成 一 个 可 执行 目标 文件 。 我 们 的 示例 C 
程序 ， 开 始 时 是 一 组 ASCII 文本 文件 ， 现 在 已 经 被 转化 为 一 个 二 进 制 文件 ， 且 这 个 二 进 制 
文件 包含 加 载 程序 到 内 存 并 运行 它 所 需 的 所 有 信息 。 图 7-13 概括 了 一 个 典型 的 ELF 可 执 
行文 件 中 的 各 类 信息 。 


0 
将 连续 的 文件 
节 映 射 到 运行 
时 内 存 段 









(| 用 表 
, 主 交 二 七 


.bss 


.line 


节 头 部 表 


图 7-13 典型 的 ELF 可 执行 目标 文件 


可 执行 目标 文件 的 格式 类 似 于 可 重 定位 目标 文件 的 格式 。ELF 头 描述 文件 的 总 体格 
式 。 它 还 包括 程序 的 入 口 点 (entry point)， 也 就 是 当 程 序 运 行 时 要 执行 的 第 一 条 指令 的 地 
址 。 .text、.rodata 和 .data 节 与 可 重 定 位 目标 文件 中 的 节 是 相似 的 ， 除 了 这 些 节 已 经 被 
重 定位 到 它们 最 终 的 运行 时 内 存 地 址 以 外 。.init 节 定 义 了 一 个 小 函数 ， 叫 做 init， 程序 
的 初始 化 代码 会 调用 它 。 因 为 可 执行 文件 是 完全 链接 的 (已 被 重 定 位 )， 所 以 它 不 再 需要 . 
wl 御 

ELF 可 执行 文件 被 设计 得 很 容易 加 载 到 内 存 ， 可 执行 文件 的 连续 的 片 (chunk) 被 映射 
到 连续 的 内 存 段 。 程 序 头 部 表 (program header table) 描 述 了 这 种 映射 关系 。 图 7-14 展示 
了 可 执行 文件 prog 的 程序 头 部 表 ， 是 由 OBJDUMP 显示 的 。 


只 读 内 存 段 〈 代 码 段 ) 











| WW (数据 段 ) 


不 加 载 到 内 存 的 符号 表 
和 调试 信息 





we 
文件 的 节 


code/link/prog-exe.d 


Read-only code sepgment 
1 LOAD off Ox0000000000000000 vaddr 0x0000000000400000 paddr 0x0000000000400000 align 2**21 
2 filesz Ox000000000000069c memsz Ox000000000000069c flags r-x 


Read/write data sepment 
3 LOAD off 0Ox0000000000000df8 vaddr Ox0000000000600df8 paddr Ox0000000000600df8 align 2**21 
+1 filesz Ox0000000000000228 memsz Ox0000000000000230 flags rw- 


code/link/prog-exe.d 
图 7-14 示例 可 执行 文件 prog 的 程序 头 部 表 


off: 目标 文件 中 的 偏 移 ; vaddr/paddr: 内 存 地 址 ; align: 对 齐 要 求 ; filesz: 目标 文件 中 的 段 大 小 ; 
memsz: 内 存 中 的 段 大 小 ; flags: 运行 时 访问 权限 。 


从 程序 头 部 表 ， 我 们 会 看 到 根据 可 执行 目标 文件 的 内 容 初始 化 两 个 内 存 段 。 第 1 行 和 
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第 2 行 告诉 我 们 第 一 个 段 ( 代 码 段 ) 有 读 / 执 行 访问 权限 ， 开 始 于 内 存 地 址 0x400000 处 ， 总 
共 的 内 存 大 小 是 0x69c 字 节 ， 并 且 被 初始 化 为 可 执行 目标 文件 的 头 0x69c 个 字 节 ， 其 中 包 
括 ELF 头 、 程 序 头 部 表 以 及 .init、.text 和 .rodata 节 。 

第 3 行 和 第 4 行 告诉 我 们 第 二 个 段 (数据 段 ) 有 读 / 写 访问 权限 ， 开 始 于 内 存 地 址 
0x600df8 处 ， 总 的 内 存 大 小 为 0x230 字 节 ， 并 用 从 目标 文件 中 偏 移 0xdf8 处 开始 的 
.dataT 中 的 0x228 个 字 节 初始 化 。 该 段 中 剩 下 的 8 个 字 节 对 应 于 运行 时 将 被 初始 化 为 0 
的 .bss 数据 。 

对 于 任何 段 s， 链 接 需 必须 选择 一 个 起 始 地 址 vaddr， 使 得 


vaddr mod align = off mod align 


这 里 ，off 是 目标 文件 中 有 段 的 第 一 个 节 的 偏 移 量 ，align 是 程序 头 部 中 指定 的 对 齐 (22 = 
0x200000)。 例 如 ， 图 7-14 中 的 数据 段 中 
vaddr mod align = 0x600df8 mod 0x200000 = 0xdf8 


以 及 
off mod align = Oxdf8 mod 0x200000 = 0xdf8 


这 个 对 齐 要 求 是 一 种 优化 ， 使 得 当 程序 执行 时 ， 目 标 文件 中 的 段 能 够 很 有 效率 地 传送 到 内 
存 中 。 原 因 有 点 儿 微妙 ， 在 于 虚拟 内 存 的 组 织 方式 ， 它 被 组 织 成 一 些 很 大 的 、 连 续 的 、 大 
小 为 2 的 寄 的 字 节 片 。 第 9 章 中 你 会 学 习 到 虚拟 内 存 的 知识 。 


7. 9 加 载 可 执行 目标 文件 
要 运行 可 执行 目标 文件 prog， 我 们 可 以 在 Linux shell 的 命令 行 中 输入 它 的 名 字 : 


linux> ./prog 


因为 prog 不 是 一 个 内 置 的 shell 命令 ， 所 以 shell 会 认为 prog 是 一 个 可 执行 目标 文 
件 ， 通 过 调用 某 个 驻 留 在 存储 器 中 称 为 加 载 器 (loader) 的 操作 系统 代码 来 运行 它 。 任 何 
Linux 程序 都 可 以 通过 调用 execve 吗 数 来 调用 加 载 器 ， 我 们 将 在 8. 4.6 节 中 详细 描述 这 
个 函数 。 加 载 器 将 可 执行 目标 文件 中 的 代码 和 数据 从 磁盘 复制 到 内 存 中 ， 然 后 通过 跳 转 到 程 
序 的 第 一 条 指令 或 入 口 点 来 运行 该 程序 。 这 个 将 程序 复制 到 内 存 并 运行 的 过 程 叫做 加 载 。 

每 个 Linux 程序 都 有 一 个 运行 时 内 存 映像 ， 类 似 于 图 7-15 中 所 示 。 在 Linux x86-64 
系统 中 ， 代 码 段 总 是 从 地 址 0x400000 处 开始 ， 后 面 是 数据 段 。 运 行 时 堆 在 数据 段 之 后 ， 
通过 调用 malloc 库 往 上 增长 。( 我 们 将 在 9. 9 节 中 详细 描述 malloc 和 堆 ,) 堆 后 面 的 区 域 
是 为 共 至 模块 保留 的 。 用 户 栈 总 是 从 最 大 的 合法 用 户 地 址 (2 一 1) 开 始 ， 向 较 小 内 存 地 址 
增长 。 栈 上 的 区 域 ， 从 地 址 2 开始， 是 为 内 核 (kernel) 中 的 代码 和 数据 保留 的 ， 所 谓 内 核 
就 是 操作 系统 驻 留 在 内 存 的 部 分 。 

为 了 简洁 ， 我 们 把 堆 、 数 据 和 代码 段 画 得 彼此 相 邻 ， 并 且 把 栈 顶 放 在 了 最 大 的 合法 用 
户 地 址 处 。 实 际 上 ， 由 于 .data 段 有 对 齐 要 求 ( 见 7.8 节 )， 所 以 代码 段 和 数据 段 之 间 是 有 
间 辽 的。 同时 ， 在 分 配 栈 、 共 享 库 和 堆 段 运行 时 地 址 的 时 候 ， 链 接 器 还 会 使 用 地 址 空间 布 
局 随机 化 (ASLR， 参 见 3. 10. 4 节 )。 虽 然 每 次 程序 运行 时 这 些 区 域 的 地 址 都 会 改变 ， 它 们 
的 相对 位 置 是 不 变 的 。 

当 加 载 器 运行 时 ， 它 创建 类 似 于 图 7-15 所 示 的 内 存 映 像 。 在 程序 头 部 表 的 引导 下 ， 
加 载 需 将 可 执行 文件 的 片 (chunk) 复 制 到 代码 段 和 数据 段 。 接 下 来 ， 加 载 器 跳 转 到 程序 的 
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和 人口 点 ， 也 就 是 _stazrt 图 数 的 地 址 。 这 个 函数 是 在 系统 目标 文件 ctrl.o 中 定义 的 ， 对 所 
有 的 C 程序 都 是 一 样 的 。_start 图 数 调 用 系统 启动 函数 ”1libc start main， 该 子 数 定 
义 在 libc.so 中 。 它 初始 化 执行 环境 ， 调 用 用 户 层 的 main 函数 ， 处 理 main 函数 的 返回 
值 ， 并 且 在 需要 的 时 候 把 控制 返回 给 内 核 。 














对 用 户 代 码 不 可 
内 核 内 存 网 的 内 丰 
i 
运行 时 名 
(运行 时 创建 ) 吕 ” ( 栈 指针 ) 
共享 库 的 内 存 映射 区 域 
二- 一 Brk 
( 由 malloc 创 建 ) 
( .data, .bss ) 从 可 执行 文件 中 加 载 


只 读 代码 段 
( .init, .text, .rodata) 
Ox400000 E i 
ol fr | 
图 7-15 Linux x86-64 运行 时 内 存 上 映像 。 没 有 展示 出 由 于 段 对 齐 要 求 和 地 址 空 
间 布 局 随机 化 (ASLR) 造 成 的 空 阶 。 区 域 大 小 不 成 比例 


旁 注 | 加 载 器 实际 是 如 何 工 作 的 ? 

我 们 对 于 加 载 的 描述 从 概念 上 来 说 是 正确 的 ， 但 也 不 是 完全 准确 ， 这 是 有 意 为 之 。 
要 理解 加 载 实 际 是 如 何 工 作 的 ， 你 必须 理解 进程 、 虚 拟 内 存 和 内 存 映射 的 概念 ， 这 些 我 
们 还 没有 加 以 讨论 。 在 后 面 第 8 章 和 第 9 章 中 遇 到 这 些 概念 时 ， 我 们 将 重新 回 到 加 载 的 
问题 上 ， 并 逐渐 向 你 揭 开 它 的 神秘 面纱 。 

对 于 不 够 有 耐心 的 读者 ， 下 面 是 关于 加 载 实 际 是 如 何 工 作 的 一 个 概述 : Linux 系统 
中 的 每 个 程序 都 运行 在 一 个 进程 上 下 文中 ， 有 自己 的 庶 拟 地 址 空间 。 当 shell 运行 一 个 
程序 时 ， 父 shell 进程 生成 一 个 子 进 程 ， 它 是 父 进 程 的 一 个 复制 。 子 进程 通过 execve 系 
统 调 用 启动 加 载 器 。 加 载 器 删除 子 进程 现 有 的 虚拟 内 存 段 ， 并 创建 一 组 新 的 代码 、 数 
据 、 堆 和 栈 段 。 新 的 栈 和 堆 段 被 初始 化 为 零 。 通 过 将 虚拟 地 址 空间 中 的 页 映射 到 可 执行 
文件 的 页 大 小 的 片 (chunk)， 新 的 代码 和 数据 段 被 初始 化 为 可 执行 文件 的 内 容 。 最 后 ， 
加 载 器 跳 转 到 start 地 址 ， 它 最 终 会 调用 应 用 程序 的 main 函数 。 除 了 一 些 头 部 信息 ， 在 
加 载 过 程 中 没有 任何 从 磁盘 到 内 存 的 数据 复制 。 直 到 CPU 引用 一 个 被 映射 的 虚拟 页 时 才 
会 进行 复制 ， 此 时 ， 操 作 系 统 利用 它 的 页 面 调度 机 制 自动 将 页 面 从 磁盘 传送 到 内 存 。 


7. 10 动态 链接 共享 库 

我 们 在 7. 6. 2 节 中 研究 的 静态 库 解 决 了 许多 关于 如 何 让 大 量 相 关 函 数 对 应 用 程序 可 用 
的 问题 。 然 而 ， 静 态 库 仍然 有 一 些 明 显 的 缺点 。 静 态 库 和 所 有 的 软件 一 样 ， 需 要 定期 维护 
和 更 新 。 如 果 应 用 程序 员 想 要 使 用 一 个 库 的 最 新 版 本 ， 他 们 必须 以 某 种 方式 了 解 到 该 库 的 
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更 新 情况 ， 然 后 显 式 地 将 他 们 的 程序 与 更 新 了 的 库 重 新 链接 。 

另 一 个 问题 是 几乎 每 个 C 程序 都 使 用 标准 I/O 函数 ， 比 如 printf 和 scanf。 在 运行 
时 ， 这 些 果 数 的 代码 会 被 复制 到 每 个 运行 进程 的 文本 段 中 。 在 一 个 运行 上 百 个 进程 的 典型 
系统 上 ， 这 将 是 对 稀缺 的 内 存 系统 资源 的 极 大 浪费 。( 内 存 的 一 个 有 趣 属性 就 是 不 论 系统 
的 内 存 有 多 大 ， 它 总 是 一 种 稀缺 资源 。 磁 盘 空间 和 厨房 的 垃圾 桶 同样 有 这 种 属性 。) 

共享 库 (shared library) 是 致力 于 解决 静态 库 缺陷 的 一 个 现代 创新 产物 。 共 享 库 是 一 个 
目标 模块 ， 在 运行 或 加 载 时 ， 可 以 加 载 到 任意 的 内 存 地 址 ， 并 和 一 个 在 内 存 中 的 程序 链接 
起 来 。 这 个 过 程 称 为 动态 链接 (dynamic linking)， 是 由 一 个 叫做 动态 链接 器 (dynamic linker) 
的 程序 来 执行 的 。 共 享 库 也 称 为 共享 目标 (shared object)， 在 Linux 系统 中 通常 用 .so 后 绥 
来 表示 。 微 软 的 操作 系统 大 量 地 使 用 了 共享 库 ， 它 们 称 为 DLL( 动 态 链接 库 )。 

共享 库 是 以 两 种 不 同 的 方式 来 “ 共 main2.c vector.h 
享 ” 的 。 首 先 ， 在 任何 给 定 的 文件 系统 
中 | 对 于 一 个 库 具 有 一 个 ,se 详 件 s ' 拉 
有 引用 该 库 的 可 执行 目标 文件 共享 这 个 . 









翻译 需 
(cpp,ccl,as) 1ibc'.so 


1]11byector: so 


so 文件 中 的 代码 和 数据 ， 而 不 是 像 静态 可 重 定位 目标 文件 main2.o 重 定位 和 
库 的 内 容 那样 被 复制 和 幅 入 到 引用 它们 | 符号 表 信 息 
的 可 执行 的 文件 中 。 其 次 ,在 内 存 中 ， 
一 个 共享 库 的 .text 节 的 一 个 副本 可 以 | 
被 不 同 的 正在 运行 的 进程 共享 。 在 第 9 Te prog21 
章 我 们 学 习 虚 拟 内 存 时 将 更 加 详细 地 讨 | 
论 这 个 问题 。 加 载 器 

图 7-16 概括 了 图 7-7 中 示例 程序 的 ee Peete 
动态 链接 过 程 。 为 了 构造 图 7-6 中 示例 | temo 





OE 
们 调用 编译 右 驱 动 程序 ， 给 编译 右 和 链 的 可 执行 文件 
接 屡 如 下 特殊 指令 : 图 7-16 ”动态 链接 共享 库 


linux> gcc -shared -fpic -o libvector.so addvec.c multvec.c 


-fpic 选 项 指示 编译 项 生 成 与 位 置 无 关 的 代码 (下 一 节 将 详细 讨论 这 个 问题 )。 
-shared 选 项 指示 链接 器 创建 一 个 共享 的 目标 文件 。 一 有 旦 创建 了 这 个 库 ， 随 后 就 要 将 它 链 
接 到 图 7-7 的 示例 程序 中 : 


linux> gcc -0 Prog21 main2.c ./libvector.so 


这 样 就 创建 了 一 个 可 执行 目标 文件 prog21， 而 此 文件 的 形式 使 得 它 在 运行 时 可 以 和 
libvector .so 链接 。 基 本 的 思路 是 当 创建 可 执行 文件 时 ， 静 态 执行 一 些 链接 ， 然 后 在 程 
序 加 载 时 ， 动 态 完成 链接 过 程 。 认 识 到 这 一 点 是 很 重要 的 : 此 时 ， 没 有 任何 libvector.so 
的 代码 和 数据 节 真 的 被 复制 到 可 执行 文件 prog21 中 。 反 之 ， 链 接 器 复制 了 一 些 重 定位 和 
符号 表 信 息 ， 它 们 使 得 运行 时 可 以 解析 对 1ibvector.so 中 代码 和 数据 的 引用 。 

当 加 载 右 加 载 和 运行 可 执行 文件 prog21 时 ， 它 利用 7.9 节 中 讨论 过 的 技术 ， 加 载 部 分 
链接 的 可 执行 文件 prog21。 接 着 ， 它 注意 到 prog21 包含 一 个 .interp 节 ， 这 一 节 包 含 动态 
链接 融 的 路 径 名 ， 动 态 链 接 怖 本 喘 就 是 一 个 共享 目标 (如 在 Linux 系统 上 的 1d-linux. so)。 
加 载 硕 不 会 像 它 通 党 所 做 地 那样 将 控制 传递 给 应 用 ， 而 是 加 载 和 运行 这 个 动态 链接 需 。 然 


HM 


动态 链接 兹 通过 执行 下 面 的 重 定 位 完成 链接 任务 : 

e 重 定 位 libc.so 的 文本 和 数据 到 某 个 内 存 段 。 

e 重 定 位 1ibvector .so 的 文本 和 数据 到 另 一 个 内 存 段 。 

e 重 定位 prog21 中 所 有 对 由 Libc.so 和 Libvector.so 定义 的 符号 的 引用 。 

最 后 ， 动 态 链 接 融 将 控制 传递 给 应 用 程序 。 从 这 个 时 刻 开 始 ， 共 享 库 的 位 置 就 固定 
了 ， 并 且 在 程序 执行 的 过 程 中 都 不 会 改变 。 


7. 11 从 应 用 程序 中 加 载 和 链接 共享 库 


到 目前 为 止 ， 我 们 已 经 讨论 了 在 应 用 程序 被 加 载 后 执行 前 时 ， 动 态 链接 器 加 载 和 链接 
共享 库 的 情景 。 然 而 ， 应 用 程序 还 可 能 在 它 运 行 时 要 求 动 态 链接 器 加 载 和 链接 某 个 共享 
库 ， 而 无 需 在 编译 时 将 那些 库 链 接 到 应 用 中 。 

动态 链接 是 一 项 强大 有 用 的 技术 。 下 面 是 一 些 现实 世界 中 的 例子 : 

@ 分 发 软件 。 微 软 Windows 应 用 的 开发 者 第 第 利用 共享 库 来 分 发 软件 更 新 。 他 们 生 

成 一 个 共享 库 的 新 版 本 ,然后 用 户 可 以 下 载 ， 并 用 它 蔡 代 当 前 的 版 本 。 下 一 次 他 们 
运行 应 用 程序 时 ， 应 用 将 自动 链接 和 加 载 新 的 共享 库 。 

@ 构建 高 性 能 Web 服务 器 。 许 多 Web 服务 器 生成 动态 内 容 ， 比 如 个 性 化 的 Web 页 

面 、 账 户 余 额 和 广告 标语 。 早 期 的 Web 服务 器 通过 使 用 fork 和 execve 创建 一 个 
子 进程 ， 并 在 该 子 进程 的 上 下 文中 运行 CGI 程序 来 生成 动态 内 容 。 然 而 ， 现代 高 性 
能 的 Web 服务 器 可 以 使 用 基于 动态 链接 的 更 有 效 和 完善 的 方法 来 生成 动态 内 容 。 

其 思路 是 将 每 个 生成 动态 内 容 的 也 数 打包 在 共享 库 中 。 当 一 个 来 自 Web 浏览 器 的 请 
求 到 达 时 ， 服 务 右 动态 地 加 载 和 链接 适当 的 了 渔 数 ， 然 后 直接 调用 它 ， 而 不 是 使 用 fork 和 
execve 在 子 进程 的 上 下 文中 运行 函数 。 函 数 会 一 直 缓 存在 服务 器 的 地 址 空间 中 ， 所 以 只 
要 一 个 简单 的 函数 调用 的 开销 就 可 以 处 理 随后 的 请 求 了 。 这 对 一 个 繁忙 的 网 站 来 说 是 有 很 
大 影响 的 。 更 进一步 地 说 ， 在 运行 时 无 需 停止 服务 器 ， 就 可 以 更 新 已 存在 的 涌 数 ， 以 及 添 
加 新 的 函数 。 

Linux 系统 为 动态 链接 需 提 供 了 一 个 简单 的 接口 ， 人 允许 应 用 程序 在 运行 时 加 载 和 链接 
共享 库 。 


#include <dlfcn.h> 


void *dlopen(const char *filename, int flag); 
返回 : 若 成 功 则 为 指向 句柄 的 指针 ， 芝 出错 则 为 NULL。 





dlopen 函数 加 载 和 链接 共享 库 filename。 用 已 用 带 RTLD _GLOBAL 选项 打开 了 的 库 
解析 filename 中 的 外 部 符号 。 如 果 当 前 可 执行 文件 是 带 -rdynamic 选项 编译 的 ， 那 么 对 
符号 解析 而 言 ， 它 的 全 局 符号 也 是 可 用 的 。flag 参数 必须 要 么 包括 RTLD NOW， 该 标志 告 
诉 链接 器 立即 解析 对 外 部 符号 的 引用 ， 要 么 包括 RTLD LAZY 标志 ， 该 标志 指示 链接 釉 推 
迟 符 号 解析 直到 执行 来 自 库 中 的 代码 。 这 两 个 值 中 的 任意 一 个 都 可 以 和 RTLD_GLOBRAL 标 


#include <dlfcn.h> 


void *dlsym(void *handle, char *symbol); 
返回 : 车 成 功 则 为 指向 符号 的 指针 ， 若 出 错 则 为 NULL。 
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dlsym 函数 的 输入 是 一 个 指向 前 面 已 经 打开 了 的 共享 库 的 句柄 和 一 个 symbol 名 字 ， 
如 果 该 符号 存在 ， 就 返回 符号 的 地 址 ， 和 否则 返回 NULL。 


#include <dlfcn.h> 


int dlclose (void *khandle) ; 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1， 





如 采 没 有 其 他 共 人 圣 库 还 在 使 用 这 个 共享 库 ，dlclose 函数 就 外 载 该 共享 库 。 


#include <dlfcn.h> 


const char *dlerror(void); 


返回 : 如 果 前 面 对 dlopen、dlsym 或 dlclose 的 调用 失败 ， 
则 为 错误 消息 ， 如 果 前 面 的 调用 成 功 ， 则 为 NULL。 





dlerror 图 数 返回 一 个 字符 串 ， 它 描述 的 是 调用 dlopen、dlsym 或 者 dlclose 函数 
时 发 生 的 最 近 的 销 误 ， 如 果 没 有 错误 发 生 ， 就 返回 NULL。 

图 7-17 展示 了 如 何 利用 这 个 接口 动态 链接 我 们 的 Libvector .so 共享 库 ， 然 后 调用 
它 的 addvec 例 程 。 要 编译 这 个 程序 ， 我 们 将 以 下 面 的 方式 调用 GCC: 


linux> gcc -rdynamic -0 prog2r dll.c -1dl 


code/link/dll.c 
#include <stdio.h> 


1 

2 #include <stdlib.h> 

3 #include <dlfcn.h> 

4 

5 int x[2] = {i 23; 

6 int y[2] = {3, 4}; 

7 i [2] 

8 

9 int main() 

10 +{ 

11 void *handle; 

12 void (*addvec) (int *, int *, int *, int); 

13 char *error; 

14 

15 /* Dynamically load the shared library containing addvec() */ 
16 handle = dlopen("./libvector.so", RTLD A 
17 if (!handle) { 

18 fprintf(stderr, "hs\n", dlerror()); 

19 exit (1); 

20 } 

21 

22 /* Get a pointer to the addvec() function we just loaded */ 
23 addvec = dlsym(handle, "addvec'"); 

24 if ((error = dlerror()) != NULL) { 

25 fprintf (stderr, '"'%s\n", error); 


图 7-17 示例 程序 3。 在 运行 时 动态 加 载 和 链接 共享 库 1ibvector .so 


26 xiCL)s 
27 上 
28 
29 /* Now we can call addvec() just like any other function */ 
30 addvec(x, y, Zz, 2); 
31 printf("w = [%a Xa]\n", z[0]; 2L1]): 
32 
33 /* Unload the shared library */ 
34 if (dlclose(handle) < 0) { 
35 fprintf (stderr, "%s\n", dlerror()); 
36 exit(1); 
37 } 
38 return 0; 
39 3} 
code/link/dll.c 
图 区 1I7 《如 
EE3 共享 库 和 Java 本 地 接口 


Java 定义 了 一 个 标准 调用 规则 ， 叫 做 Java 本 地 接口 (Java Native Interface，JNI)， 它 允 
许 Java 程序 调用 “本 地 的 ”C 和 C++ 函数 。JNI 的 基本 思想 是 将 本 地 C 函数 (如 foo) 编 译 
到 一 个 共享 库 中 (如 foo.so)。 当 一 个 正在 运行 的 Java 程序 试图 调用 函数 foo 时 ，jJava 解 
释 器 利用 dlopen 接口 (或 者 与 其 类 似 的 接口 ) 动 态 链 接 和 加 载 foo.so， 然 后 再 调用 foo。 


7. 12 位 置 无 关 代 码 


共享 库 的 一 个 主要 目的 就 是 允许 多 个 正在 运行 的 进程 共享 内 存 中 相同 的 库 代 码 ， 因 而 
节约 宝贵 的 内 存 资源 。 那 么 ， 多 个 进程 是 如 何 共 享 程 序 的 一 个 副本 的 呢 ? 一 种 方法 是 给 每 
个 共享 库 分 配 一 个 事先 预备 的 专用 的 地 址 空间 片 ， 然 后 要 求 加 载 句 总 是 在 这 个 地 址 加 载 共 
享 库 。 虽 然 这 种 方法 很 简单 ， 但 是 它 也 造成 了 一 些 严 重 的 问题 。 它 对 地 址 空间 的 使 用 效率 
不 高 ， 因 为 即使 一 个 进程 不 使 用 这 个 库 ， 那 部 分 空间 还 是 会 被 分 配 出 来 。 它 也 难以 管理 。 
我 们 必须 保证 没有 片 会 重 玲 。 每 次 当 一 个 库 修 改 了 之 后 ， 我 们 必须 确认 已 分 配给 它 的 片 还 
适合 它 的 大 小 。 如 果 不 适 合 了 ， 必 须 找 一 个 新 的 片 。 并 且 ， 如 果 创 建 了 一 个 新 的 库 ， 我 们 
还 必须 为 它 寻找 空间 。 随 着 时 间 的 进展 ， 假 设 在 一 个 系统 中 有 了 成 百 个 库 和 库 的 各 个 版 本 
库 ， 就 很 难 避 免 地 址 空间 分 裂 成 大 量 小 的 、 未 使 用 而 又 不 再 能 使 用 的 小 洞 。 更 粳 的 是 ， 对 
每 个 系统 而 言 ， 库 在 内 存 中 的 分 配 都 是 不 同 的 ， 这 就 引起 了 更 多 令 人 头痛 的 管理 问题 。 

要 避免 这 些 问题 ， 现 代 系 统 以 这 样 一 种 方式 编译 共享 模块 的 代码 段 ， 使 得 可 以 把 它们 
加 载 到 内 存 的 任何 位 置 而 无 需 链 接 器 修改 。 使 用 这 种 方法 ,无限 多 个 进程 可 以 共享 一 个 共 
享 模块 的 代码 段 的 单一 副本 。( 当 然 ， 每 个 进程 仍然 会 有 它 自己 的 读 / 写 数据 块 。) 

可 以 加 载 而 无 需 重 定位 的 代码 称 为 位 置 无 关 代 码 (Position-Independent Code，PIC ) 。 
用 户 对 GCC 使 用 -fpic 选项 指示 GNU 编译 系统 生成 PIC 代码 。 共 至 库 的 编译 必须 总 是 
使 用 该 选项 。 

在 一 个 x86-64 系统 中 ， 对 同一 个 目标 模块 中 符号 的 引用 是 不 需要 特殊 处 理 使 之 成 为 
PIC。 可 以 用 PC 相对 寻 址 来 编译 这 些 引用 ， 构 造 目标 文件 时 由 静态 链接 器 重 定 位 。 然 而 ， 对 
共享 模块 定义 的 外 部 过 程 和 对 全 局 变量 的 引用 需要 一 些 特 殊 的 技巧 ， 接 下 来 我 们 会 谈 到 。 
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1. PIC 数据 引用 

编译 絮 通 过 运用 以 下 这 个 有 趣 的 事实 来 生成 对 全 局 变量 的 PIC 引用 : 无 论 我 们 在 内 存 
中 的 何 处 加 载 一 个 目标 模块 (包括 共享 目标 模块 )， 数 据 段 与 代码 段 的 距离 总 是 保持 不 变 。 
因此 ， 代 码 段 中 任何 指令 和 数据 段 中 任何 变量 之 间 的 距离 都 是 一 个 运行 时 常量， 与 代码 段 
和 数据 段 的 绝对 内 存 位 置 是 无 关 的 。 

想 要 生成 对 全 局 变量 PIC 引用 的 编译 器 利用 了 这 个 事实 ， 它 在 数据 段 开始 的 地 方 创建 
了 一 个 表 ， 叫 做 全 局 偏 移 量 表 (Global Offset Table，GOT)。 在 GOT 中 ,每 个 被 这 个 目 
标 模块 引用 的 全 局 数据 目标 (过 程 或 全 局 变量 ) 都 有 一 个 8 字 节 条 目 。 编 译 需 还 为 GOT 中 
每 个 条 目 生 成 一 个 重 定 位 记录 。 在 加 载 时 ， 动 态 链接 需 会 重 定位 GOT 中 的 每 个 条 目 ， 使 
得 它 包 含 目 标的 正确 的 绝对 地 址 。 每 个 引用 全 局 目标 的 目标 模块 都 有 目 己 的 GOT。 

图 7-18 展示 了 示例 1ibvector .so 共享 模块 的 GOT。addvec 例 程 通过 GOTL3j 间 接 
地 加 载 全 局 变量 addcnt 的 地 址 ， 然 后 把 addcnt 在 内 存 中 加 1。 这 里 的 关键 思想 是 对 
GOTL3j 的 PC 相对 引用 中 的 偏 移 量 是 一 个 运行 时 常量 。 


数据 段 
全 局 偏 移 量 表 (GOT) 
GOT [0 ] : ... 
GOPLLIS ... 


SOP [2 
GOT[3]: &addcnt 















运行 时 GOT[3] 和 
add1l1 指 今 之 则 的 
固定 距离 是 
0x2008b9 


代码 段 


addvec: 


mov Ox2008b9 (%rip),% rex # Srax=*GOT[3]=&addent 
addl1l $0xl1, (Srax) # addcnt++ 









图 7-18 用 GOT 引用 全 局 变量 。1ibvector.so 中 的 addvec 例 程 通过 libvector.so 的 
GOT 间接 引用 了 addcnt 


因为 addcnt 是 由 libvector .so 模块 定义 的 ， 编 译 硕 可 以 利用 代码 段 和 数据 段 之 间 
不 变 的 距离 ， 产 生 对 addcnt 的 直接 PC 相对 引用 ， 并 增加 一 个 重 定位 ， 让 链接 需 在 构造 
这 个 共享 模块 时 解析 它 。 不 过 ， 如 果 addcnt 是 由 另 一 个 共享 模块 定义 的 ， 那 么 就 需要 通 
过 GOT 进行 间接 访问 。 在 这 里 ， 编 译 融 选择 采用 最 通用 的 解决 方案 ， 为 所 有 的 引用 使 
用 GOTI。 

2，PIC 函数 调用 

假设 程序 调用 一 个 由 共享 库 定 义 的 图 数 。 编 诺 需 没有 办 法 预测 这 个 男 数 的 运行 时 地 址 ， 
因为 定义 它 的 共享 模块 在 运行 时 可 以 加 载 到 任意 位 置 。 正 稼 的 方法 是 为 该 引用 生成 一 条 重 定 
位 记录 ， 人 然后 动态 链接 需 在 程序 加 载 的 时 候 再 解析 它 。 不 过 ， 这 种 方法 并 不 是 PC， 因为 它 
需要 链接 硕 修 改 调用 模块 的 代码 段 ，GNU 编译 系统 使 用 了 一 种 很 有 趣 的 技术 来 解决 这 个 问 
题 ， 称 为 延迟 绑 定 (lazy binding)， 将 过 程 地 址 的 绑 定 推迟 到 第 一 次 调用 该 过 程 时 。 

使 用 延迟 绑 定 的 动机 是 对 于 一 个 像 1ibc.so 这 样 的 共享 库 输 出 的 成 百 上 千 个 图 数 中 ,一 
个 典型 的 应 用 程序 只 会 使 用 其 中 很 少 的 一 部 分 。 把 浮 数 地 址 的 解析 推迟 到 它 实 际 被 调用 的 地 
方 ， 能 避免 动态 链接 器 在 加 载 时 进行 成 百 上 千 个 其 实 并 不 需要 的 重 定 位 。 第 一 次 调用 过 程 的 
运行 时 开销 很 大 ， 但 是 其 后 的 每 次 调用 都 只 会 花费 一 条 指令 和 一 个 间接 的 内 存 引用 。 

延迟 绑 定 是 通过 两 个 数据 结构 之 间 简 洁 但 又 有 些 复杂 的 交互 来 实现 的 ， 这 两 个 数据 结 
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构 是 : GOT 和 过 程 链接 表 (Procedure Linkage Table，PLT)。 如 果 一 个 目标 模块 调用 定义 
在 共享 库 中 的 任何 函数 ， 那 么 它 就 有 自己 的 GOT 和 PLT。GOT 是 数据 段 的 一 部 分 ， 而 
PLT 是 代码 段 的 一 部 分 。 

图 7-19 展示 的 是 PLT 和 GOT 如 何 协作 在 运行 时 解析 郴 数 的 地 址 。 首 先 ， 让 我 们 检 
查 一 下 这 两 个 表 的 内 容 。 

@ 过 程 链接 表 (PLT)。PLT 是 一 个 数组 ， 其 中 每 个 条 目 是 16 字 节 代码 。PLT[0] 是 一 
个 特殊 条 目 ， 它 跳 转 到 动态 链接 器 中 。 每 个 被 可 执行 程序 调用 的 库 函 数 都 有 它 自 己 
的 PLT 条目。 每 个 条 目 都 负责 调用 一 个 具体 的 水 数 。PLT[1]( 图 中 未 显示 ) 调 用 系 
统 司 动 图 数 (、_libc start _main)， 它 初始 化 执行 环境 ， 调 用 main 函数 并 处 理 其 
返回 值 。 从 PLT[2] 开 始 的 条 目 调用 用 户 代 人 码 调 用 的 函数 。 在 我 们 的 例子 中 ，PLT 
[2] 调 用 addvec，PLT[3]( 图 中 未 显示 ) 调 用 printf。 
全 局 偏 移 量 表 (GOT)。 正 如 我 们 看 到 的 ，GOT 是 一 个 数组 ， 其 中 每 个 条 目 是 8 字 
节 地 址 。 和 PLT 联合 使 用 时 ，GoT[0] 和 GoT [1] 包 含 动态 链接 器 在 解析 函数 地 址 时 
会 使 用 的 信息 。GoT [2] 是 动态 链接 器 在 1d-linux.so 模块 中 的 和 人口 点 。 其 余 的 每 
个 条 目 对 应 于 一 个 被 调用 的 图 数 ， 其 地 址 需要 在 运行 时 被 解析 。 每 个 条 目 都 有 一 个 
相 匹 配 的 PLT 条 目 。 例 如 ，GOT[4] 和 PLT[2] 对 应 于 addvec。 初 始 时 ， 每 个 GOT 
条 目 都 指 回 对 应 PLT 条 目的 第 二 条 指令 。 


数据 段 
全 局 偏 移 量 表 (GOT) 


: addr of .dynamic 
: aaar of reloc entries 


数据 段 
全 局 偏 移 量 表 (GOT) 


: addr of .dynamic 

: addr of reloc entries 
: addr of dynamic linker 
: Ox4005b6 # SYS startup 
: &adGavec (1) 

: Ox4005d6 # printf() 


: addr of dynamic linker 
: Ox4005lbé6 # sys startup 
: 0X4005c6 # addvec{() 
: Ox4005d6 # printf() 










代码 段 
callG 0x4005c0 # call aaavec () 


过 程 链接 表 (PLT) 
# PLT[O0]: caill dynamic linker 
4005a0 :pushg *GOT[1] 
4005a6:jmpq *GOT[2] 





代码 段 


callg 0x4005c0 # call aaQavec1) 
过 程 链接 表 (PLT) 


# PITLO7T: call dynamic linker 
4005a0:pushg *GOTI[1] 

4005a6:jmpqg  *GOT [2] 

# PLT[2]: call adavec1) 

4005c0: jmpqg *GOTI[4] ©) 
4005c6: pushqgq $0Ox1 

4005cb: jmpq 4005a0 












# PLT[2]: call addvec{) 
4005c0: JjJmpqg *GOTI[4] 
4005c6: pushg $0Ox1 
4005el 





Jmpq 4005a0 





a ) 第 一 次 调用 addvec b ) 后 续 再 调用 addvec 
名 719 用 PLT 和 GOT 调用 外 部 函数 。 在 第 一 次 调用 addvec 时 ， 动态 链 接 器 解析 它 的 地 址 


图 7-19a 展示 了 GOT 和 PLT 如 何 协 同 工 作 ， 在 addvec 被 第 一 次 调用 时 ， 延 迟 解 析 
它 的 运行 时 地 址 : 
e 第 1 步 。 不 直接 调用 adadvec， 程 序 调用 进入 PLT[2]， 这 是 addvec 的 PLT 条 目 。 
e 第 2 步 。 第 一 条 PLT 指令 通过 GoT [4] 进 行 间接 跳 转 。 因 为 每 个 GOT 条 目 初 始 时 
都 指向 它 对 应 的 PLT 条 目的 第 二 条 指令 ， 这 个 间接 跳 转 只 是 简单 地 把 控制 传送 回 
PLT[2] 中 的 下 一 条 指令 。 
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e 第 3 步 。 在 把 addvec 的 ID(0x1) 压 入 栈 中 之 后 ，PLT[2] 跳 转 到 PLT[0]。 

e 第 4 步 。PLT[0] 通 过 GOT[1] 间 接地 把 动态 链接 器 的 一 个 参数 压 人 栈 中 ， 然 后 通过 
GOT[2] 间 接 跳 转 进 动态 链接 侨 中 。 动 态 链接 器 使 用 两 个 栈 条 目 来 确定 addvec 的 运 
行 时 位 置 ， 用 这 个 地 址 重 写 GoT[4]， 再 把 控制 传递 给 addvec。 

图 7-19b 给 出 的 是 后 续 再 调用 addvec 时 的 控制 流 : 

e 第 1 步 。 和 前 面 一 样 ， 探 制 传递 到 PLT[2]。 

9 第 2 和 步 。 不 过 这 次 通过 GoT [4] 的 间接 跳 转 会 将 控制 直接 转移 到 addvec。 


7.13 库 打 桩 机 制 


Linux 链接 需 文 持 一 个 很 强大 的 技术 ， 称 为 库 打 桩 (library interpositioning)， 它 允许 
你 截获 对 共享 库 函 数 的 调用 ， 取 而 代 之 执行 目 己 的 代码 。 使 用 打桩 机 制 ， 你 可 以 追踪 对 某 
个 特殊 库 函 数 的 调用 次 数 ， 验 证 和 追 蹊 它 的 输入 和 输出 值 ， 或 者 甚至 把 它 替 换 成 一 个 完全 
不 同 的 实现 。 

下 面 是 它 的 基本 思想 ， 给 定 一 个 需要 打桩 的 目标 函数 ， 创 建 一 个 包装 函数 ， 它 的 原型 
与 目标 图 数 完 全 一 样 。 使 用 某 种 特殊 的 打桩 机 制 ， 你 就 可 以 欺骗 系统 调用 包装 了 果 数 而 不 是 
目标 函数 了 。 包 冯 函 数 通 篆 会 执行 它 自己 的 逻辑 ， 然 后 调用 目标 函数 ， 再 将 目标 函数 的 返 
回 值 传递 给 调用 者 。 

打桩 可 以 发 生 在 编译 时 、 链 接 时 或 当 程 序 锌 加 载 和 执行 的 运行 时 。 要 研究 这 些 不 同 的 
机 制 ， 我 们 以 图 7-20a 中 的 示例 程序 作为 运行 例子 。 它 调用 C 标准 库 (1ibc.so) 中 的 mal- 
loc 和 free 图 数 。 对 malloc 的 调用 从 堆 中 分 配 一 个 32 字 节 的 块 ， 并 返回 指 问 该 块 的 指 
针 。 对 free 的 调用 把 块 还 回 到 堆 ， 供 后 续 的 malloc 调用 使 用 。 我 们 的 目标 是 用 打桩 来 
追踪 程序 运行 时 对 malloc 和 free 的 调用 。 


7. 13.1 编译 时 打桩 


图 7-20 展示 了 如 何 使 用 C 预 处 理 需 在 编译 时 打桩 。mymalloc.c 中 的 包装 函数 (图 7-20c) 
调用 目标 也 数 ， 打 印 追 踪 记 录 ， 并 返回 。 本 地 的 malLlloc.h 头 文件 (图 7-20b) 指 示 预 处 理 器 用 
对 相应 包 闭 聘 数 的 调用 替换 掉 对 目标 函数 的 调用 。 像 下 面 这 样 编译 和 链接 这 个 程序 : 


linux> gcc -DCOMPILETIME -c mymalloc.c 
linux> gcc -I. -0 intc int.c mymalloc.o 


由 于 有 -I. 参 数 ， 所 以 会 进行 打桩 ， 它 告诉 C 预 处 理 带 在 搜索 通常 的 系统 目录 之 前 ， 
先 在 当前 目录 中 查找 malloc.h。 注 意 ，mymalloc.c 中 的 包装 图 数 是 使 用 标准 malloc.h 
头 文件 编译 的 。 

运行 这 个 程序 会 得 到 如 下 的 追踪 信息 : 

limnux> /inte 


malloc(32)=0x9ee010 
free (Ox9ee010) 


7. 13.2 链接 时 打桩 

Linux 静态 链接 狠 文 持 用 --wrap f 标志 进行 链接 时 打桩 。 这 个 标志 告诉 链接 副 ， 把 对 
符号 £ 的 引用 解析 成 ”wrap_f( 前 级 是 两 个 下 划 线 )， 还 要 把 对 符号 ” real f( 前 级 是 两 
个 下 划 线 ) 的 引用 解析 为 E。 图 7-21 给 出 我 们 示例 程序 的 包装 函数 。 
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code/link/interpose/int.c 


#include <stdio.h> 
#include <malloc.h> 


int main() 

{ 
int *p = malloc(32); 
free lp); 
return(0); 


‘OO AGO N 一 


code/link/interpose/int.c 
a) 示例 程序 int.c 
code/linK/interpose/malloc.h 


#define malloc(size) mymalloc(size) 
#define free(ptr) myfree(ptr) 


void *mymalloc(size_t size); 
void myfree(void *ptr); 


nN C= 


code/link/interpose/malloc.h 


b) 本 地 malloc.h 文件 
code/link/interpose/mymalloc.c 


#ifdef COMPILETIME 
#include <stdio.h> 
#include <malloc.h> 


/* malloc wrapper function */ 
void *mymalloc(size_t size) 
‘ 
void *ptr = malloc(size); 
printf ("malloc(%d)=%p\n", 
(int)size, ptr); 
return ptr; 


O ‘DD ON OO tt 太 Wi NN 一 


一 人 
一 一 


/* free wrapper function */ 
void myfree(void *ptr) 
{ 

free (ptr); 

printf ("free(%p)\n", ptr); 


Bld dd 
‘© 0NOO 二 WW NW 


} 
#endif 


上 
OO 


code/link/interpose/mymalloc.c 
c) mymalloc.c 中 的 包装 郴 数 


图 7-20 用 C 预 处 理 器 进行 编译 时 打桩 
用 下 述 方法 把 这 些 源 文件 编译 成 可 重 定位 目标 文件 : 


linux> gcc -DLINKTIME -c mymalloc.c 
linux> gece 一 C int.c 


然后 把 目标 文件 链接 成 可 执行 文件 : 


linux> gcc -Wl1,--wrap,malloc -Wl1,--—wrap,free -o intl int.o mymalloc.o 


-Wl,option 标志 把 option 传递 给 链接 器 。option 中 的 每 个 逗号 都 要 替换 为 一 个 空 
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格 。 所 以 -Wl,--wrap;malloc 就 把 - -wrap malloc 传递 给 链接 器 ， 以 类 似 的 方式 传递 


-由 7 一 -WEapy frees 


code/link/interpose/mymalloc.c 
#ifdef LINKTIME 


1 

2 #include <stdio.h> 

3 

4 void * real malloc(size t size); 

5 void __real_free(void *ptr); 

6 

7 /* malloc wrapper function */ 

8 void *__wrap_malloc(size_t size) 

9 

10 void *ptr = __real_malloc(size); /* Call libc malloc */ 
11 printf("malloc(%d) = %p\n", (int)size, ptr); 
12 return Ptr ; 

13 } 


15  /* free wrapper function */ 
16 void __wrap._free(void *ptr) 


17 { 

18 __real_free(ptr); /* Call libc free */ 
19 printf ("free(%p)\n", ptr); 

20 } 

21 #endif 


code/link/interpose/mymalloc.c 
图 7-21 用 --wrap 标志 进行 链接 时 打桩 


运行 该 程序 会 得 到 如 下 追踪 信息 : 


linux> ./intl 
malloc(32) = 0xl8cf010 
free(Ox18cf010) 


7. 13.3 ”运行 时 打桩 


编译 时 打桩 需要 能 够 访问 程序 的 源 人 代码， 链接 时 打桩 需要 能 够 访问 程序 的 可 重 定 位 对 
象 文件 。 不 过 ， 有 一 种 机 制 能 够 在 运行 时 打桩 ， 它 只 需要 能 够 访问 可 执行 目标 文件 。 这 个 
很 厉害 的 机 制 基 于 动态 链接 需 的 LD PRELOAD 环境 变量 。 

如 果 LD PRELOAD 环境 变量 被 设置 为 一 个 共享 库 路 径 名 的 列表 (以 空格 或 分 号 分 隅 )， 
那么 当 你 加 载 和 执行 一 个 程序 ， 需 要 解析 未 定义 的 引用 时 ， 动 态 链接 器 (LD-LINUX .S50) 会 
先 搜索 LD PRELOAD 库 ， 然 后 才 搜 索 任 何其 他 的 库 。 有 了 这 个 机 制 ， 当 你 加 载 和 执行 任意 
可 执行 文件 时 ， 可 以 对 任何 共享 库 中 的 任何 函数 打桩 ， 包 括 1ibc.so。 

图 7-22 展示 了 malloc 和 free 的 包装 困 数 。 每 个 包装 田 数 中 ， 对 dlsym 的 调用 返回 

指 回 目标 libc 函数 的 指针 。 然 后 包 交 图 数 调 用 目标 函数 ， 打 印 追 踩 记 录 ， 册 返回 。 


下 面 是 如 何 构 建 包含 这 些 包装 函数 的 共享 库 的 方法 : 
linux> gcc -DRUNTIME -shared -fpic -o mymalloc.so mymalloc.c -ld 


这 是 如 何 编 译 主 程序 : 


linux> gcc -o intr int.,.c 


DA Ww WW NN ~ 


ww te WW WW MN MN MN ko ND + hk ND NN ND Cd 
WW NO 0 Wm NO WW A WW ND OO 0 NN Om Wh NN WwW N= OO 
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code/link/interpose/mymalloc.c 
#ifdef RUNTIME 


#define _GNU_SOURCE 
#include <stdio.h> 
#include <stdlib.h> 
#include <dlfcn.h> 


/* malloc wrapper function */ 
void *malloc(size_t size) 


{ 
void *(*mallocp) (size_t size); 
char *error; 
mallocp = dlsym(RTLD_NEXT, "malloc"); /* Get address of libc malloc */ 
if ((error = dlerror()) != NULL) { 
fputs(error, stderr); 
exit(1); 
,上 
char *ptr = mallocp(size); /* Call libc malloc */ 
printf("malloc(%d) = %p\n", (int)size, ptr); 
return ptr; 
} 


/* free wrapper function */ 

void free(void *ptr) 
void (*freep) (void *) = NULL ; 
char *error; 


if (!ptr) 
return; 


freep = dlsym(RTLD_NEXT, "free"); /* Get address of libc free */ 
if ((error = dlerror()) != NULL) { 
fputs(error, stderr); 
exit(1); 
} 
freep(ptr); /* Call libc free */ 
printf("free(%p)\n", ptr); 
} 


#endif 
code/link/interpose/mymalloc.c 


图 7-22 用 LD PRELOAD 进行 运行 时 打桩 


下 面 是 如 何 从 bash shell 中 运行 这 个 程序 呈 


linux> LD_PRELOAD=" ./mymalloc.so" ./intr 
malloc(32) = 0xlbf7010 
free(Oxibf7010) 


昌 ”如 果 你 不 知道 运行 的 shell 是 哪 一 种 ， 在 命令 行 上 输入 printenv SHELL。 


下 面 是 如 何在 csh 或 tcsh 中 运行 这 个 程序 : 


linux> (setenv LD_PRELOAD "./mymalloc.so"; ./intr; unsetenv LD_PRELOAD) 
malloc(32) = Ox2157010 
free(Ox2157010) 


请 注意 ， 你 可 以 用 LD PRELOAD 对 任何 可 执行 程序 的 库 困 数 调 用 打桩 ! 


linux> LD_PRELOAD="./mymalloc.so" /usr/bin/uptime 
malloc(568) = Ox21bb010 

free (Ox21bb010) 

malloc(15) = Ox21bb010 

malloc(568) = 0x21bb030 

malloc(2255) = 0x21bb270 


free (Ox21bb030) 

malloc(20) = 0x21bb030 
malloc(20) = 0x21bb050 
malloc(20) = Ox21bb070 
malloc(20) = 0x21bb090 
malloc(20) = 0x21bb0b0 


malloc(384) = 0x21bb0d0 
20:47:36 up 85 days, 6:04, 1 user， load average: 0.10, 0.04, 0.05 


7. 14 ”处理 目标 文件 的 工具 


在 Linux 系统 中 有 大 量 可 用 的 工具 可 以 帮助 你 理解 和 处 理 目 标 文件 。 特别 地 ，GNU 
binutils 包 尤 其 有 帮助 ， 而 且 可 以 运行 在 每 个 Linux 平 台 上 。 

e AR: 创建 静态 库 ， 插 入、 删除 、 列 出 和 提取 成 员 ，。 

e STRINGS: 列 出 一 个 目标 文件 中 所 有 可 打印 的 字符 串 。 

e STRIP: 从 目标 文件 中 删除 符号 表 信 息 。 

e NM: 列 出 一 个 目标 文件 的 符号 表 中 定义 的 符号 。 

e SIZE: 列 出 目标 文件 中 节 的 名 字 和 大 小 。 

e READELF: 显示 一 个 目标 文件 的 完整 结构 ， 包 括 ELF 头 中 编码 的 所 有 信息 。 包 含 
SIZE 和 NM 的 功能 。 

e OBJDUMP:; 所 有 二 进 制 工 具 之 母 。 能 够 显示 一 个 目标 文件 中 所 有 的 信息 。 它 最 大 
的 作用 是 反 汇 编 .text 节 中 的 二 进 制 指令 。 

Linux 系统 为 操作 共享 库 还 提供 了 LDD 程序 : 

e LDD: 列 出 一 个 可 执行 文件 在 运行 时 所 需要 的 共享 库 。 


7. 15 小结 


链接 可 以 在 编译 时 由 静态 编译 器 来 完成 ， 也 可 以 在 加 载 时 和 运行 时 由 动态 链接 器 来 完成 。 链 接 絮 处 
理 称 为 目标 文件 的 二 进 制 文件 ， 它 有 3 种 不 同 的 形式 : 可 重 定位 的 、 可 执行 的 和 共享 的 。 可 重 定位 的 目 
标 文 件 由 静态 链接 器 合并 成 一 个 可 执行 的 目标 文件 ， 它 可 以 加 载 到 内 存 中 并 执行 。 共 享 目标 文件 (共享 
库 ) 是 在 运行 时 由 动态 链接 需 链 接 和 加 载 的 ， 或 者 隐 含 地 在 调用 程序 被 加 载 和 开始 执行 时 ， 或 者 根据 需要 
在 程序 调用 dlopen 库 的 函数 时 。 

链接 融 的 两 个 主要 任务 是 符号 解析 和 重 定位 ， 符 号 解析 将 目标 文件 中 的 每 个 全 局 符号 都 绑 定 到 一 个 
唯一 的 定义 ， 而 重 定位 确定 每 个 符号 的 最 终 内 存 地 址 ， 并 修改 对 那些 目标 的 引用 。 


静态 链接 器 是 由 像 GCC 这 样 的 编译 驱动 程序 调用 的 。 它 们 将 多 个 可 重 定位 目标 文件 合并 成 一 个 单独 
的 可 执行 目标 文件 。 多 个 目标 文件 可 以 定义 相同 的 符号 ， 而 链接 器 用 来 悄悄 地 解析 这 些 多 重 定义 的 规则 
可 能 在 用 户 程序 中 引入 微妙 的 错误 。 

多 个 目标 文件 可 以 被 连接 到 一 个 单独 的 静态 库 中 。 链 接 器 用 库 来 解析 其 他 目标 模块 中 的 符号 引 
用 。 许 多 链接 器 通过 从 左 到 右 的 顺序 扫描 来 解析 符号 引用 ， 这 是 另 一 个 引起 令 人 迷惑 的 链接 时 错误 
的 来 源 。 

加 载 器 将 可 执行 文件 的 内 容 映 射 到 内 存 ， 并 运行 这 个 程序 。 链 接 器 还 可 能 生成 部 分 链接 的 可 执行 目 
标 文件 ， 这 样 的 文件 中 有 对 定义 在 共享 库 中 的 例 程 和 数据 的 未 解析 的 引用 。 在 加 载 时 ， 加 载 器 将 部 分 链 
接 的 可 执行 文件 映射 到 内 存 ， 然 后 调用 动态 链接 器 ， 它 通过 加 载 共享 库 和 重 定位 程序 中 的 引用 来 完成 链 
接任 务 。 

被 编译 为 位 置 无 关 代 码 的 共享 库 可 以 加 载 到 任何 地 方 ， 也 可 以 在 运行 时 被 多 个 进程 共享 。 为 了 加 载 、 
链接 和 访问 共享 库 的 函数 和 数据 ， 应 用 程序 也 可 以 在 运行 时 使 用 动态 链接 器 。 


参考 文献 说 明 

在 计算 机 系统 文献 中 并 没有 很 好 地 记录 链接 。 因 为 链接 是 处 在 编译 器 、 计 算 机 体系 结构 和 操作 系统 
的 交叉 点 上 ， 它 要 求 理解 代码 生成 、 机 器 语言 编程 、 程 序 实例 化 和 虚拟 内 存 。 它 没有 恰好 落 在 某 个 通常 
的 计算 机 系统 领域 中 ， 因 此 这 些 领 域 的 经 典 文献 并 没有 很 好 地 描述 它 。 然 而 ，Levine 的 专著 提供 了 有 关 
这 个 主题 的 很 好 的 一 般 性 参考 资料 [69]。[54j] 描 述 了 ELF 和 DWARF( 对 .debug 和 .line 节 内 容 的 规范 ) 
的 原始 IA32 规范 。[L36] 描 述 了 对 ELF 文件 格式 的 x86-64 扩展 。x86-64 应 用 二 进 制 接口 (ABI) 描 述 了 编 
译 、 链 接 和 运行 x86-64 程序 的 惯例 ， 其 中 包括 重 定位 和 位 置 无 关 代 码 的 规则 [77J 。 


家 庭 作业 
7.6 这 道 题 是 关于 图 7-5 的 m.o 模 块 和 下 面 的 swap.c 肾 数 版 本 的 ， 该 明 数 计算 自己 被 调用 的 次 数 ， 


extern int buf[]; 


int *bufpO = &buf [0]; 
static int *bufpl; 


static void incr() 


{ 


oo NO Wn hh Ww my 一 


static int count=0; 


10 COount++; 


11 } 


13 void swap() 


14 +{ 

15 int temp; 

16 

17 incr(); 

18 bufpl = &buf [1]; 
19 temp = *bufp0; 
20 *bufp0 = *bufpil; 
21 *bufpl = temp; 


鸡 让 


对 于 每 个 swap.o 中 定义 和 引用 的 符号 ， 请 指出 它 是 否 在 模块 swap.o 的 .symtab 节 中 有 符号 表 
条 目 。 如 果 是 这 样 ， 请 指出 定义 该 符号 的 模块 (swap.o 或 m.o)、 符 号 类 型 (局 部 、 全 局 或 外 部 ) 以 及 
它 在 模块 中 所 处 的 节 ( .text、.data 或 .bss)。 


符号 类 型 定义 符号 的 模块 他 





* 7.7 不 改变 任何 变量 名 字 ， 修 改 7. 6. 1 节 中 的 bar5.c， 使 得 foc6o5.c 输 出 x 和 y 的 正确 值 (也 就 是 整数 
15213 和 15212 的 十 六 进 制 表示 ) 。 

在 此 题 中 ，REF (xi) 一 DEFE(x，k) 表 示 链 接 器 将 任意 对 模块 i 中 符号 x 的 引用 与 模块 k 中 符号 x 的 
定义 相关 联 。 在 下 面 每 个 例子 中 ， 用 这 种 符号 来 说 明 链 接 器 是 如 何 解析 在 每 个 模块 中 有 和 多重 定义 的 
引用 的 。 如 果 出 现 链接 时 错误 (规则 1) ， 写 “错误 ”。 如 果 链 接 器 从 定义 中 任意 选择 一 个 (规则 3)， 
那么 写 “ 未 知 ”。 
A. /* Module 1 */ 


* 7/7.8 


* 7,9 


** 7. 10 


int main() 
{ 
} 


(a) REF(main.1) 一 DEF( 
(b) REF(main.2) —> DEF( _ 
, /* Module 1 */ 


下 人 


void main() 


} 


(a) REF(x.1)—> DEF( 
(b) REF(x.2) 一 DEF( 
. /* Module 1 */ 


int x=1; 
void main() 
{ 

上 


(a) REF(x.1) 一 DEF( 
(b) REF(x.2) 一 DEF( 


/* Module 2 */ 
static int main=1[ 
int p2() 

{ 

站 


CC __) 
i 


/* Module 2 */ 
double XxX: 

int p2() 

{ 

} 


= 
风 


/* Module 2 */ 
double x=1.0; 
int p2() 

和‘ 

} 


) 
) 


考虑 下 面 的 程序 ， 它 由 两 个 目标 模块 组 成 : 


oO NO Ww 全 WN- 


/* foo6.c */ 
void p2(void); 


int main() 

{ 
Dot ; 
return 0; 


printf ("Ox%x\n", main); 


1 /* bar6.c */ 

2 #include <stdio.h> 
3 

4 char main,; 

5 

6 void p2() 

7 入 

8 

9 


当 在 x86-64 Linux 系统 中 编译 和 执行 这 个 程序 时 ， 即 使 函数 p2 不 初始 化 变量 main， 它 也 能 打印 字 
符 串 “0x48\n” 并 正常 终止 。 你 能 解释 这 一 点 吗 ? 


定义 的 符号 。 


a 和 b 表示 当前 路 径 中 的 目标 模块 或 静态 库 ， 而 a-~b 表 示 a 依赖 于 b， 也 就 是 说 a 引 用 了 一 个 b 
对 于 下 面 的 每 个 场景 ， 给 出 使 得 静态 链接 器 能 够 解析 所 有 符号 引用 的 最 小 的 命令 行 
( 即 含有 最 少数 量 的 目标 文件 和 库 参 数 的 命令 )。 
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A Duo* ibra*po 
B. p.o>1ibx.a>liby.a 和 liby.a>1l1ibx.a 
C. po*>libx.a>*liby.a>1ibz.a 和 liby.a*”* libx.a->»]1ibz .a 
** 7.11 图 7-14 中 的 程序 头 部 表明 数据 段 占 用 了 内 存 中 0x230 个 字 节 。 然 而 ， 其 中 只 有 开始 的 0x228 字 节 
来 自 可 执行 文件 的 节 。 是 什么 引起 了 这 种 差异 ? 
**7.12 考虑 目标 文件 m.o 中 对 函数 swap 的 调用 (作业 题 7. 6)。 


Si e8 00 00 00 00 callq €@ <maint+Oxe> swap() 
具有 如 下 重 定位 条 目 : 

r.offset = Oxa 

r.symbol = swap 

r.type = R_X86_64_PC32 

r.addend = -4 


A. 假设 链接 需 将 m.o 中 的 .text 重 定位 到 地 址 0x4004e0， 把 swap 重 定 位 到 地 址 0x4004f8。 那 么 
callqg 指令 中 对 swap 的 重 定位 引用 的 值 应 该 是 什么 ? 

B. 假设 链接 右 将 m.o 中 的 .text 重 定位 到 地 址 0x400490， 把 swap 重 定位 到 地 址 0x400500。 那 么 
callqg 指令 中 对 swap 的 重 定 位 引用 的 值 应 该 是 什么 ? 

** 7. 13 完成 下 面 的 任务 将 帮助 你 更 熟悉 处 理 目 标 文件 的 各 种 工具 。 

A. 在 你 的 系统 上 ，1lib.c 和 1libm.a 的 版 本 中 包含 多 少 目 标 文 件 ? 

B. gcc-0g 产生 的 可 执行 代码 与 gcc -0g-g 产生 的 不 同 吗 ? 

C. 在 你 的 系统 上 ，GCC 驱动 程序 使 用 的 是 什么 共享 库 ? 


练习 题 答案 


7. 1 这 道 练 习题 的 目的 是 帮助 你 理解 链接 融 符 号 和 上 变量 及 函数 之 间 的 关系 。 注 意 C 的 局 部 变量 temp 
没有 符号 表 条 目 。 





7.2 这 是 一 个 简单 的 练习 ， 检 查 你 对 Unix 链接 器 解析 在 一 个 以 上 模块 中 有 定义 的 全 局 符号 时 所 使 用 规 
则 的 理解 。 理 解 这 些 规则 可 以 帮助 你 避免 一 些 讨厌 的 编程 错误 。 
A. 链接 更 选择 定义 在 模块 1 中 的 强 符号 ， 而 不 是 定义 在 模块 2 中 的 弱 符 号 (规则 2): 
(a) REF(main.1) 一 DEF(main.1) 
(b) REF(main.2) 一 DEF (main.1) 
B. 这 是 一 个 错误 ， 因 为 每 个 模块 都 定义 了 一 个 强 符号 main( 规 则 1)。 
,链接 器 选择 定义 在 模块 2 中 的 强 符号 ， 而 不 是 定义 在 模块 1 中 的 弱 符 号 (规则 2): 
(a) REF(x.1) 一 DEF(x.2) 
(b) REF(x.2) 一 DEF (x.2) 
7.3 在 命令 行 中 以 错误 的 顺序 放置 静态 库 是 造成 令 许 多 程序 员 迷 惑 的 链接 器 错误 的 常见 原因 。 然 而 ， 一 
且 你 理解 了 链接 需 是 如 何 使 用 静态 库 来 解析 引用 的 ， 它 就 相当 简单 易 民 了。 这 个 小 练习 检查 了 你 对 
这 个 概念 的 理解 : 


A. linux> gcc Pp.o libx.a 


OO 


B. linux> gcc p.0 libx.a liby.a 
C. linux> gcc p.o0 libx.a liby.a libx.a 


7.4 这 道 题 涉及 的 是 图 7-12a 中 的 反 汇 编列 表 。 目 的 是 让 你 练习 阅读 反 汇 编列 表 ， 并 检查 你 对 PC 相对 
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Ke 


寻 址 的 理解 。 
A. 第 5 行 被 重 定位 引用 的 十 六 进 制 地 址 为 0x4004df。 


B. 第 5 行 被 重 定位 引用 的 十 六 进 制 值 为 0x5。 记 住 ， 反 汇编 列表 给 出 的 引用 值 是 用 小 端 法 字 节 顺序 


表示 的 。 
这 道 题 是 测试 你 对 链接 器 重 定位 PC 相对 引用 的 理解 的 。 给 定 
ADDR(s) = ADDR(.text) = Ox4004d0 
和 
ADDR(r.symbol) = ADDR(swap) = Ox4004e8 


使 用 图 7-10 中 的 算法 ， 链 接 需 首先 计算 引用 的 运行 时 地 址 : 


ADDR(s) + r.offset 
Ox4004d0 + Oxa 
Ox4004da 


然后 修改 此 引用 : 


= (unsigned) (ADDR(r.symbol) + r.addend - refaddr) 
= (unsigned) (0x4004e8 + (~-4) - Ox4004da) 
= (unsigned) (Oxa) 


refaddr 


*refptr 


因此 ， 得 到 的 可 执行 目标 文件 中 ， 对 swap 的 PC 相对 引用 的 值 为 0xa: 
4004d9: e8 0a 00 00 00 callq 4004e8 <swap> 
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吊 8 和 章 
© H A P | E R 8 


卉 第 控制 流 


从 给 处 理 器 加 电 开 始 ， 直 到 你 断 电 为 止 ， 程 序 计 数 顺 假设 一 个 值 的 序列 

dn suis “人 7 一 | 

其 中 ， 每 个 凡是 某 个 相应 的 指令 到 的 地 址 。 每 次 从 a 到 ai;1 的 过 渡 称 为 控制 转移 (control 

transfer) 。 这 样 的 控制 转移 序列 叫做 处 理 器 的 控制 流 (flow of control 或 control flow) 。 

最 简单 的 一 种 控制 流 是 一 个 “平滑 的 ”序列 ， 其 中 每 个 到 和 天 在 内 存 中 都 是 相 邻 
的 。 这 种 平滑 流 的 突变 (也 就 是 和 与 到 不 相 邻 ) 通 稼 是 由 诸如 跳 转 、 调 用 和 返回 这 样 一 些 
熟悉 的 程序 指令 造成 的 。 这 样 一 些 指令 都 是 必要 的 机 制 ， 使 得 程序 能 够 对 由 程序 变量 表示 
的 内 部 程序 状态 中 的 变化 做 出 反应 。 

但 是 系统 也 必须 能 够 对 系统 状态 的 变化 做 出 反应 ， 这 些 系统 状态 不 是 被 内 部 程序 变量 捕 
获 的 ， 而 且 也 不 一 定 要 和 程序 的 执行 相关 。 比 如 ， 一 个 硬件 定时 器 定期 产生 信号 ， 这 个 事件 
必须 得 到 处 理 。 包 到 达 网 络 适 配 需 后 ， 必 须 存 放 在 内 存 中 。 程 序 癌 磁盘 请 求 数据 ， 然 后 休 
眠 ， 直 到 被 通知 说 数据 已 就 绪 。 当 子 进 程 终止 时 ， 创 造 这 些 子 进程 的 父 进程 必 须 得 到 通知 。 

现代 系统 通过 使 控制 流 发 生 突变 来 对 这 些 情 况 做 出 反应 。 一 般 而 言 ， 我 们 把 这 些 突变 

称 为 异常 控制 流 ( 上 Exceptional Control Flow，ECF)。 异 常 控 制 流 发 生 在 计算 机 系统 的 各 个 

层次 。 比 如 ， 在 人 硬件 层 ， 硬 件 检测 到 的 事件 会 触发 控制 突然 转移 到 异常 处 理 程序 。 在 操作 

系统 层 ， 内 核 通过 上 下 文 切 换 将 控制 从 一 个 用 户 进程 转移 到 另 一 个 用 户 进程 。 在 应 用 层 ， 

一 个 进程 可 以 发 送信 号 到 为 一 个 进程 ， 而 接收 者 会 将 控制 突然 转移 到 它 的 一 个 信号 处 理 程 

序 。 一 个 程序 可 以 通过 回避 通 常 的 栈 规 则 ， 并 执行 到 其 他 哺 数 中 任意 位 置 的 非 本 地 跳 转 来 

对 错误 做 出 反应 。 

作为 程序 员 ， 理 解 ECF 很 重要 ， 这 有 很 多 原因 : 

@ 理解 ECF 将 帮助 你 理解 重要 的 系统 概念 。ECF 是 操作 系统 用 来 实现 I/O、 进 程 和 

虚拟 内 存 的 基本 机 制 。 在 能 够 真正 理解 这 些 重 要 概念 之 前 ， 你 必须 理解 ECF 。 

e@ 理解 ECF 将 帮助 你 理解 应 用 程序 是 如 何 与 操作 系统 交互 的 。 应 用 程序 通过 使 用 一 
个 叫做 陷阱 (trap) 或 者 系统 调用 (System call) 的 ECF 形式 ， 回 操作 系统 请 求 服 务 。 
比如 ， 回 磁盘 写 数 据 、 从 网 络 读 取 数据 、 创 建 一 个 新 进程 ， 以 及 终止 当前 进程 ， 都 
是 通过 应 用 程序 调用 系统 调用 来 实现 的 。 理 解 基本 的 系统 调用 机 制 将 帮助 你 理解 这 
些 服务 是 如 何 提供 给 应 用 的 。 
理解 ECF 将 帮助 你 编写 有 趣 的 新 应 用 程序 。 操 作 系 统 为 应 用 程序 提供 了 强大 的 
ECF 机 制 ， 用 来 创建 新 进程 、 等 待 进 程 终止 、 通 知 其 他 进程 系统 中 的 异常 事件 ， 以 
及 检测 和 啊 应 这 些 事件 。 如 果 理 解 了 这 些 ECF 机 制 ， 那么 你 就 能 用 它们 来 编写 诸 
如 Unix shell 和 Web 服务 需 之 类 的 有 趣 程序 了 。 

9 理解 ECF 将 帮助 你 理解 并 发 。ECF 是 计算 机 系统 中 实现 并 发 的 基本 机 制 。 在 运行 
中 的 并 发 的 例子 有 : 中 断 应 用 程序 执行 的 异常 处 理 程序 ， 在 时 间 上 重 公 执行 的 进程 
和 线程 ， 以 及 中 断 应 用 程序 执行 的 信号 处 理 程序 。 理 解 ECF 是 理解 并 发 的 第 一 步 。 
我 们 会 在 第 12 章 中 更 详细 地 研究 并 发 。 
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@ 理解 ECF 将 帮助 你 理解 软件 异常 如 何 工作 。 像 C++ 和 Java 这 样 的 语言 通过 try、 
catch 以 及 throw 语句 来 提供 软件 异常 机 制 。 软 件 异 常 允 许 程序 进行 非 本 地 跳 转 
( 即 违反 通 篆 的 调用 /返回 栈 规则 的 跳 转 ) 来 啊 应 错误 情况 。 非 本 地 跳 转 是 一 种 应 用 
层 ECF,， 在 C 中 是 通过 setjmp 和 longjmp 函数 提供 的 。 理 解 这 些 低级 函数 将 帮助 
你 理解 高 级 软件 异常 如 何 得 以 实现 。 
对 系统 的 学 习 ， 到 目前 为 止 你 已 经 了 解 了 应 用 是 如 何 与 硬件 交互 的 。 本 章 的 重要 性 在 
于 你 将 开始 学 习 应 用 是 如 何 与 操作 系统 交互 的 。 有 趣 的 是 ， 这 些 交 互 都 是 围绕 着 ECF 的 。 
我 们 将 描述 存在 于 一 个 计算 机 系统 中 所 有 层次 上 的 各 种 形式 的 ECF。 从 异常 开始 ， 异 常 位 
于 人 刹 件 和 操作 系统 交界 的 部 分 。 我 们 还 会 讨论 系统 调用 ， 它 们 是 为 应 用 程序 提供 到 操作 系 
统 的 入 口 点 的 异常 。 然 后 ， 我 们 会 提升 抽象 的 层次 ， 描 述 进程 和 信号 ， 它 们 位 于 应 用 和 操 
作 系 统 的 交界 之 处 。 最 后 讨论 非 本 地 跳 转 ， 这 是 ECF 的 一 种 应 用 层 形式 。 


8. 1 异常 

异常 是 异常 控制 流 的 一 种 形式 ， 它 一 部 分 由 人 硬件 实现 ， 一 部 分 由 操作 系统 实现 。 因 为 
它们 有 一 部 分 是 由 人 硬件 实现 的 ， 所 以 具体 细节 将 随 系 统 的 不 同 而 有 所 不 同 。 然 而 ， 对 于 每 
个 系统 而 言 ， 基 本 的 思想 都 是 相同 的 。 在 这 一 节 中 我 们 的 目的 是 让 你 对 异常 和 异常 处 理 有 
一 个 一 般 性 的 了 解 ， 并 且 回 你 揭示 现代 计算 机 系统 的 一 个 经 常 令 人 感到 迷惑 的 方面 。 

异常 (exception) 就 是 控制 流 中 的 突 启用 笨 库 总 短处 天 大 了 
变 ， 用 来 啊 应 处 理 硕 状态 中 的 某 些 变化 。 

图 8-1 展示 了 基本 的 思想 。 

在 图 中 ， 当 处 理 器 状态 中 发 生 一 个 事件 在 
重要 的 变化 时 ， 处 理 器 正在 执行 某 个 当 这 里 发 生 huext 
前 指令 Ju 。 在 处 理 器 中 ， 状 态 被 编码 
为 不 同 的 位 和 信和 号。 状态 变化 称 为 事件 
(event) 。 事 件 可 能 和 当前 指令 的 执行 直 


接 相 关 。 比 如 ， 发 生 虚 拟 内 存 缺 页 、 算 
术 洲 出 ,或 者 一 条 指令 试图 除 以 零 。 另 网 5-1 蜡 常 的 剖析 。 处 理 器 状态 中 的 变化 (事件 7 触发 从 
应 用 程序 到 异常 处 理 程 序 的 突 发 的 控制 转移 ( 异 


异常 
处 理 





异常 返回 
( 可 选 的 ) 
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方面 ， 事 件 也 可 能 和 当前 指令 的 执行 常 ) 。 在 异常 处 理 程序 完成 处 理 后 ， 它 将 控制 返 
设 有 关系 。 比 如 ， 一 个 系统 定时 器 产生 回 给 被 中 断 的 程序 或 者 终止 


信号 或 者 一 个 1/O 请 求 完成 。 

在 任何 情况 下 ， 当 处 理 器 检测 到 有 事件 发 生 时 ， 它 就 会 通过 一 张 叫 做 异常 表 (excep- 
tion table) 的 跳 转 表 ， 进 行 一 个 间接 过 程 调用 (异常 )， 到 一 个 专门 设计 用 来 处 理 这 类 事件 
的 操作 系统 子 程序 (异常 处 理 程序 (exception handler))。 当 异常 处 理 程序 完成 处 理 后 ， 根 
据 引 起 异常 的 事件 的 类 型 ， 会 发 生 以 下 3 种 情况 中 的 一 种 : 

1) 处 理 程序 将 控制 返回 给 当前 指令 Tur， 即 当 事 件 发 生 时 正在 执行 的 指令 。 

2) 处 理 程序 将 控制 返回 给 Tie ， 如 果 没 有 发 生 异 党 将 会 执行 的 下 一 条 指令 。 

3) 处 理 程序 终止 被 中 断 的 程序 。 

8. 1. 2 节 将 讲述 关于 这 些 可 能 性 的 更 多 内 容 。 


上 河 硬件 异常 与 软件 异 党 


C++ 和 Java 的 程序 员 会 注意 到 术语 “异常 ”也 用 来 描述 由 C++ 和 Java 以 catch、 


thzow 和 try 语 名 形式 提供 的 应 用 级 ECFE。 如 果 想 严格 清晰 ， 我 们 必须 区 别 “ 硬 件 ” 和 
“软件 ”异常 ， 但 这 通常 是 不 必要 的 ， 因 为 从 上 下 文中 就 能 够 很 清楚 地 知道 是 哪 种 含义 。 


8.1.1 异常 处 理 


异常 可 能 会 难以 理解 ， 因 为 处 理 异 常 需要 硬件 和 软件 紧密 合作 。 很 容易 搞 混 哪个 部 分 
执行 哪个 任务 。 让 我 们 更 详细 地 来 看 看 硬件 和 软件 的 分 工 吧 。 

系统 中 可 能 的 每 种 类 型 的 异 笛 都 分 配 了 一 个 唯一 的 非 负 整数 的 异常 号 (exception num- 
ber) 。 其 中 一 些 号 码 是 由 处 理 器 的 设计 者 分 配 的 ， 其 他 号 码 是 由 操作 系统 内 核 ( 操 作 系统 
常 驻 内 存 的 部 分 ) 的 设计 者 分 配 的 。 前 者 的 示例 包括 被 零 除 、 缺 页 、 内 存 访 问 违 例 、 断 点 
以 及 算术 运算 溢出 。 后 者 的 示例 包括 系统 调用 和 来 自 外 部 IO 设备 的 信号 。 


在 系统 启动 时 ( 当 计 算 机 重启 或 者 加 电 
时 )， 操 作 系统 分 配 和 初始 化 一 张 称 为 异常 EE 
的 跳 转 表 ， 使 得 表 目 & 包含 异常 & 的 处 理 程序 
的 地 址 。 图 8-2 展示 了 异常 表 的 格式 。 

在 运行 时 ( 当 系 统 在 执行 某 个 程序 时 )， 处 taoloft 权 | 
理 器 检测 到 发 生 了 一 个 事件 ， 并 且 确 定 了 相应 
的 异常 号 上。 随后， 处理 器 触发 异常 ， 方 法 是 
执行 间接 过 程 调用 ， 通 过 异常 表 的 表 目 &， 转 
到 相应 的 处 理 程序 。 图 8-3 展示 了 处 理 器 如 何 


使 用 异常 表 来 形成 适当 的 异常 处 理 程序 的 地 址 。 图 8-2 异常 表 。 异 常 表 是 一 张 跳 转 表 ， 其 中 表 目 帮 


tm 的 | 处 理 程 序 1 的 代码 


异常 号 是 到 异常 表 中 的 索引 ， 异 稼 表 的 起 始 地 包含 异常 k 的 处 理 程序 代码 的 地 址 
址 放 在 一 个 叫做 异常 表 基 址 寄存 器 (exception table base register) 的 特殊 CPU 寄存 占 里 。 
异常 号 异常 表 





疼 8-3 生成 异常 处 理 程序 的 地 址 。 异 常 号 是 到 异常 表 中 的 索引 


异常 类 似 于 过 程 调用 ， 但 是 有 一 些 重 要 的 不 同 之 处 : 

e 过 程 调 用 时 ， 在 跳 转 到 处 理 程序 之 前 ， 处 理 器 将 返回 地 址 压 和 人 栈 中 。 然 而 ， 根 据 异 
常 的 类 型 ， 返 回 地 址 要 么 是 当前 指令 ( 当 事 件 发 生 时 正在 执行 的 指令 )， 要 么 是 下 一 
条 指令 (如 果 事 件 不 发 生 ， 将 会 在 当前 指令 后 执行 的 指令 )。 

e 处 理 右 也 把 一 些 额 外 的 处 理 器 状态 压 到 栈 里 ， 在 处 理 程序 返回 时 ， 重新 开始 执行 被 
中 断 的 程序 会 需要 这 些 状 态 。 比 如 ，x86-64 系统 会 将 包含 当前 条 件 码 的 EFLAGS 
寄存 器 和 其 他 内 容 讨 人 栈 中 。 

e 如 果 控 制 从 用 户 程序 转移 到 内 核 ， 所 有 这 些 项 目 都 被 压 到 内 核 栈 中 ， 而 不 是 压 到 用 
户 栈 中 。 

e 异常 处 理 程序 运行 在 内 核 模式 下 ( 见 8.2.4 节 )， 这 意味 着 它们 对 所 有 的 系统 资源 都 
有 完全 的 访问 权限 。 

一 旦 硬件 触发 了 异常 ， 剩 下 的 工作 就 是 由 异常 处 理 程 序 在 软件 中 完成 。 在 处 理 程序 处 

理 完事 件 之 后 ， 它 通过 执行 一 条 特殊 的 “从 中 断 返 回 ” 指 令 ， 可 选 地 返回 到 被 中 断 的 程 


序 ， 该 指令 将 适当 的 状态 弹 回 到 处 理 需 的 控制 和 数据 寄存 硕 中 ， 如 有 果 异 篆 中 断 的 是 一 个 用 
户 程序 ， 就 将 状态 恢复 为 用 户 模 式 ( 见 8.2.4 节 )， 然 后 将 控制 返回 给 被 中 断 的 程序 。 
8. 1.2 异常 的 类 别 


异常 可 以 分 为 四 类 : 中 断 (interrupt)、 陷 阱 (trap)、 故 障 (fault) 和 终止 (abort)。 图 8-4 中 
的 表 对 这 些 类 别 的 属性 做 了 小 结 。 


。 类别 | “原因 | 异步 /同步 |  _ 返回 行为 
来 自 IO 设备 的 信号 总 是 返回 到 下 一 条 指 今 
有 意 的 异常 总 是 返回 到 下 一 条 指令 


潜在 可 恢复 的 错误 可 能 返回 到 当前 指令 
不 可 恢复 的 错误 


图 8-4 异常 的 类 别 。 异 步 异常 是 由 处 理 器 外 部 的 1/O 设备 中 的 事件 产生 的 。 同 步 异 党 
是 执行 一 条 指令 的 直接 产物 


1. 中 断 

中 断 是 异步 发 生 的 ， 是 来 自 处 理 需 外 部 的 IO 设备 的 信号 的 结果 。 人 硬件 中 断 不 是 由 任 
何 一 条 专门 的 指令 造成 的 ， 从 这 个 意义 上 来 说 它 是 异步 的 。 人 硬件 中 断 的 异常 处 理 程 序 和 常常 
称 为 中 断 处 理 程序 (interrupt handler)。 

图 8-5 概述 了 一 个 中 断 的 处 理 。LIO 设备 ， 例 如 网 络 适 配 规 、 磁 盘 控 制 大 和 定时 融 心 
片 ， 通 过 向 处 理 器 心 片 上 的 一 个 引 脚 发 信号 ， 并 将 异常 号 放 到 系统 总 线 上 ， 来 触发 中 断 ， 
这 个 异常 号 标识 了 引起 中 断 的 设备 。 











(2 ) 在 当前 指令 完成 后 ， 
在 当前 指令 控制 传递 给 处 理 程序 
9 执行 过 程 中 ， 

断 引 脚 电压 变 高 了 (3) 中 断 处 


理 程序 运行 





(4 ) 处 理 程 序 返回 
到 下 一 条 指令 


图 8-5 中 断 处 理 。 中 断 处 理 程序 将 控制 返回 给 应 用 程序 控制 流 中 的 下 一 条 指令 


在 当前 指令 完成 执行 之 后 。 处 理 帮 注意 到 中 断 引 脚 的 电压 变 高 了 了， 就 从 系统 总 线 读 取 
异常 号 ， 然 后 调用 适当 的 中 断 处 理 程序 。 当 人 处理 程 序 返 回 时 ， 它 就 将 控制 返回 给 下 一 条 指 
令 ( 也 即 如 果 没 有 发 生 中 断 ， 在 控制 流 中 会 在 当前 指令 之 后 的 那 条 指令 )。 结 果 是 程序 继续 
执行 ， 就 好 像 没 有 发 生 过 中 断 一 样 。 

剩 下 的 异常 类 型 (陷阱 、 故 障 和 终止 ) 是 同步 发 生 的 ， 是 执行 当前 指令 的 结 采 。 我 们 把 
这 类 指令 叫做 故障 指令 (faulting instruction)。 

2. 陷阱 和 系统 调用 

陷阱 是 有 意 的 异常 ， 是 执行 一 条 指令 的 结果 。 就 像 中 断 处 理 程序 一 样 ， 隐 阱 处 理 程序 
将 控制 返回 到 下 一 条 指令 。 陷 阱 最 重要 的 用 途 是 在 用 户 程序 和 内 核 之 间 提 供 一 个 像 过 程 一 
样 的 接口 ， 叫 做 系统 调用 。 

用 户 程 序 经 常 需要 向 内 核 请 求 服 务 ， 比 如 读 一 个 文件 (read)、 创 建 一 个 新 的 进程 
(fork)、 加 载 一 个 新 的 程序 (execve)， 或 者 终止 当前 进程 (exit)。 为 了 允许 对 这 些 内 核 
服务 的 受 控 的 访问 ， 处 理 需 提供 了 一 条 特殊 的 “syscall n” 指 令 ， 当 用 户 程 序 想 要 请 求 
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服务 n 时 ， 可 以 执行 这 条 指令 。 执 行 syscall 指令 会 导致 一 个 到 异常 处 理 程序 的 陷阱 ， 
这 个 处 理 程序 解析 参数 ， 并 调用 适当 的 内 核 程 序 。 图 8-6 概述 了 一 个 系统 调用 的 处 理 。 









(1 ) 应 用 程 SYscall (2 ) 控制 传递 给 处 理 程序 


序 执行 一 次 系 next 
统 调用 


(3 ) 陷阱 处 
理 程序 运行 





(4 ) 处 理 程序 返回 到 
syscall 之 后 的 指令 


所 8-6 陷阱 处 理 。 陷 阱 处 理 程序 将 控制 返回 给 应 用 程序 控制 流 中 的 下 一 条 指令 


从 程序 员 的 角度 来 看 ， 系 统 调用 和 普通 的 函数 调用 是 一 样 的 。 然 而 ， 它 们 的 实现 非常 不 
同 。 普 通 的 图 数 运行 在 用 户 模式 中 ,用 户 模式 限制 了 函数 可 以 执行 的 指令 的 类 型 ， 而 且 它 们 
只 能 访问 与 调用 顺 数 相同 的 栈 。 系 统 调 用 运行 在 内 核 模式 中 ， 内 核 模 式 允 许 系统 调用 执行 特 
权 指令 ， 并 访问 定义 在 内 核 中 的 栈 。8. 2.4 市 会 更 详细 地 讨论 用 户 模 式 和 内 核 模 式 。 

3. 故障 

故障 由 错误 情况 引起 ， 它 可 能 能 够 被 故障 处 理 程 序 修 正 。 当 故障 发 生 时 ， 处 理 需 将 控 
制 转移 给 故障 处 理 程序 。 如 果 处 理 程序 能 够 修正 这 个 错误 情况 ， 它 就 将 控制 返回 到 引起 故 
障 的 指令 ， 从 而 重新 执行 它 。 和 否则 ， 处 理 程序 返回 到 内 核 中 的 abort 例 程 ，abort 例 程 会 
终止 引起 故障 的 应 用 程序 。 图 8-7 概述 了 一 个 故障 的 处 理 。 






(1 ) 当前 指令 二“《2 ) 控制 传递 给 处 理 程序 


导致 一 个 故障 


(4) 处 理 程序 要 么 重新 
执行 当前 指令 ， 要 么 终止 


图 8-7 故障 处 理 。 根 据 故障 是 否 能 够 被 修复 ， 故 障 处 理 程序 要 么 重新 执行 引起 故障 的 指令 ， 要么 终止 


一 个 经 典 的 故障 示例 是 缺 页 异常 ， 当 指令 引用 一 个 虚拟 地 址 ， 而 与 该 地 址 相对 应 的 物 
理 页 面 不 在 内 存 中 ， 因 此 必须 从 磁盘 中 取出 时 ， 就 会 发 生 故 障 。 就 像 我 们 将 在 第 9 章 中 看 
到 的 那样 ， 一 个 页 面 就 是 虚拟 内 存 的 一 个 连续 的 块 (典型 的 是 4KB)。 缺 页 处 理 程序 从 磁盘 
加 载 适 当 的 页 面 ， 然 后 将 控制 返回 给 引起 故障 的 指令 。 当 指令 再 次 执行 时 ， 相 应 的 物理 页 
面 已 经 驻 留 在 内 存 中 了 ， 指 令 就 可 以 没有 故障 地 运行 完成 了 。 

4. 终止 

终止 是 不 可 恢复 的 致命 错误 造成 的 结果 ， 通 常 是 一 些 硬件 错误 ， 比 如 DRAM 或 者 
SRAM 位 被 损坏 时 发 生 的 奇偶 错误 。 终 止 处 理 程序 从 不 将 控制 返回 给 应 用 程序 。 如 图 8-8 
所 示 ， 处 理 程序 将 控制 返回 给 一 个 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 。 


8. 1.3 Linux/x86-64 系统 中 的 异常 


为 了 使 描述 更 具体 ， 让 我 们 来 看 看 为 x86-64 系统 定义 的 一 些 异 常 。 有 高 达 256 种 不 同 的 
异常 类 型 | 50j]。0 一 31 的 号 码 对 应 的 是 由 Intel 架构 师 定义 的 异常 ， 因 此 对 任何 x86-64 系统 都 
是 一 样 的 。32 一 255 的 号 码 对 应 的 是 操作 系统 定义 的 中 断 和 陷阱 。 图 8-9 展示 了 一 些 示例 。 


(3 ) 终止 处 
理 程 序 运行 
eR bp abort 
(4) 处 理 程序 返回 到 
abort 例 程 


图 8-8 终止 处 理 。 终 止 处 理 程序 将 控制 传递 给 一 个 内 核 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 












图 8-9 x86-64 系统 中 的 异常 示例 

1. Linux/x86-64 故障 和 终止 

除法 错误 。 当 应 用 试图 除 以 零 时 ， 或 者 当 一 个 除法 指令 的 结果 对 于 目标 操作 数 来 说 太 
大 了 的 时 候 ， 就 会 发 生 除法 错误 (异常 0) 。Unix 不 会 试图 从 除法 错误 中 恢复 ， 而 是 选择 终 
止 程序 。Linux shell 通常 会 把 除法 错误 报告 为 “ 序 点 异常 (Floating exception)”。 

一 般 保护 故障 。 许 多 原因 都 会 导致 不 为 人 知 的 一 般 保 护 故 障 ( 异 常 13)， 通 常 是 因为 一 
个 程序 引用 了 一 个 未 定义 的 虚拟 内 存 区 域 , 或 者 因为 程序 试图 写 一 个 只 读 的 文本 段 。 
Linux 不 会 尝试 恢复 这 类 故障 。Linux shell 通常 会 把 这 种 一 般 保 护 故障 报告 为 “ 段 故 障 
(Segmentation fault)”。 

缺 页 (异常 14) 是 会 重新 执行 产生 故障 的 指令 的 一 个 异常 示例 。 处 理 程序 将 适当 的 磁盘 
上 虚拟 内 存 的 一 个 页 面 映 射 到 物理 内 存 的 一 个 页 面 ， 然 后 重新 执行 这 条 产生 故障 的 指令 。 
我 们 将 在 第 9 章 中 看 到 缺 页 是 如 何 工作 的 细节 。 

机 器 检查 。 机 严 检查 (异常 18) 是 在 导致 故障 的 指令 执行 中 检测 到 致命 的 硬件 错误 时 发 
生 的 。 机 器 检查 处 理 程序 从 不 返回 控制 给 应 用 程序 。 

2. Linux/86-64 系统 调用 

Linux 提供 几 百 种 系统 调用 ， 当 应 用 程序 想 要 请 求 内 核 服 务 时 可 以 使 用 ， 包括 读 文 
件 、 写 文件 或 是 创建 一 个 新 进程 。 图 8-10 给 出 了 一 些 常见 的 Linux 系统 调用 。 每 个 系统 
调用 都 有 一 个 唯一 的 整数 号 ， 对 应 于 一 个 到 内 核 中 跳 转 表 的 偏 移 量 。( 注 意 ; 这 个 跳 转 表 
和 异常 表 不 一 样 。) 

C 程序 用 syscall 函数 可 以 直接 调用 任何 系统 调用 。 然 而 ， 实 际 中 几乎 没 必 要 这 么 做 。 对 
于 大 多 数 系统 调用 ， 标 准 C 库 提 供 了 一 组 方便 的 包装 函数 。 这 些 包装 函数 将 参数 打包 到 一 起 ， 
以 适当 的 系统 调用 指令 陷 人 内 核 ， 然 后 将 系统 调用 的 返回 状态 传递 回调 用 程序 。 在 本 书 中 ， 我 
们 将 系统 调用 和 与 它们 相关 联 的 包装 函数 都 称 为 系统 级 函数 ， 这 两 个 术语 可 以 互 换 地 使 用 。 

在 x86-64 系统 上 ， 系 统 调 用 是 通过 一 条 称 为 syscall 的 陷阱 指令 来 提供 的 。 研 究 程 
序 能 够 如 何 使 用 这 条 指令 来 直接 调用 Linux 系统 调用 是 很 有 趣 的 。 所 有 到 Linux 系统 调用 
的 参数 都 是 通过 通用 寄存 器 而 不 是 栈 传递 的 。 按 照 惯 例 ， 寄 存 器 srax 包含 系统 调用 号 ， 
寄存 器 Srdi、%rsi、%rdx、%r10、$r8 和 szr9 包含 最 多 6 个 参数 。 第 一 个 参数 在 srdi 中 ， 第 
二 个 在 %rsi 中 ， 以 此 类 推 。 从 系统 调用 返回 时 ， 寄 存 需 srcx 和 s%r11 都 会 被 破坏 ,srax 包 
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含 返 回 值 。 一 4095 到 一 1 之 间 的 负数 返回 值 表 明 发 生 了 错误 ， 对 应 于 负 的 errno。 







疝 夺 和 区 信号 的 人 
区 得 进程 

创建 进程 
| 0 


挂 起 进程 直到 信号 到 达 







关 行 一 个 各 
ep | 将 内 存 页 映 对 到 文件 如 上 这 和 


图 8-10 ”Linux x86-64 系统 中 常用 的 系统 调用 示例 


例如 ， 考 虑 大 家 熟悉 的 hello 程序 的 下 面 这 个 版 本 ， 用 系统 级 图 数 write( 见 10. 4 
他) 来 写 ， 而 不 是 用 printf: 


中 
” ~ % 过 
l 





等 待 一 个 进程 终止 
发 送信 号 到 一 个 进程 





1 int main() 
2 已 
3 write(1, "hello, world\n", 13); 
4 _exit (0); 
5 

write 图 数 的 第 一 个 参数 将 输出 发 送 到 stdout。 第 二 个 参数 是 要 写 的 字 节 序列 ， 而 
第 三 个 参数 是 要 写 的 字 节 数 。 

图 8-11 给 出 的 是 hello 程序 的 汇编 语言 版 本 ， 直 接 使 用 syscall 指令 来 调用 write 
和 exit 系统 调用 。 第 9 一 13 行 调用 write 图 数 。 首 先 ， 第 9 行将 系统 调用 write 的 编号 
存放 在 srax 中 ， 第 10 一 12 行 设 置 参数 列表 。 然 后 第 13 行使 用 syscall 指令 来 调用 系统 
调用 。 类 似 地 ， 第 14 一 16 行 调用 exit 系统 调用 。 

code/ecft/hello-asmo64.sa 


1 .Section .data 
2 string: 
3 .ascii "hello, world\n" 
4 string_end: 
5 .equ len, string_end -— string 
6 .Section .text 
.globl main 
8 main: 
First, call write(1, "hello, worid\n", 13) 
9 moVq $1, %rax write is system call 1 
10 movgd $1, %rdi Argl: stdout has descriptor 1 
11 movg $string, hrsi Arg2: hello world string 
12 movg $len, hrdx 4rg3: string length 
13 syscall Make the system call 
Next, call _exit(0) 
14 movg $60, hrax _exit is system call 60 
15 movg $0, %rdi Argl: exit status is 0 
16 syscall Make the system call 


code/ecf/hello-asmo4.sa 
图 8-11 直接 用 Linux 系统 调用 来 实现 hello 程序 


旁 注 关于 术语 的 注释 

各 种 异常 类 型 的 术语 根据 系统 的 不 同 而 有 所 不 同 。 处 理 器 ISA 规范 通常 会 区 分 异步 
“中 断 ” 和 同步 “异常 ?>， 但 是 并 没有 提供 描述 这 些 非 常 相似 的 概念 的 概括 性 的 术语 。 为 
了 避免 不 断 地 提 到 “异常 和 中 断 ” 以 及 “异常 或 者 中 断 ”， 我 们 用 单词 “异常 ”作为 通 
用 的 术语 ， 而 且 只 有 在 必要 时 才 区 别 异 步 异 常 ( 中 断 ) 和 同步 异常 (陷阱 、 故 障 和 终止 )。 
正如 我 们 提 到 过 的 ， 对 于 每 个 系统 而 言 ， 基 本 的 概念 都 是 相同 的 ， 但 是 你 应 该 意识 到 一 
些 制造 厂商 的 手册 会 用 “异常 ”仅仅 表示 同步 事件 引起 的 控制 流 的 改变 。 


8.2 进程 

异常 是 允许 操作 系统 内 核 提 供 进 程 (process) 概 念 的 基本 构造 块 ， 进 程 是 计算 机 科学 中 
最 深刻 、 最 成 功 的 概念 之 一 。 

在 现代 系统 上 运行 一 个 程序 时 ， 我们 会 得 到 一 个 假象 ， 就 好 像 我 们 的 程序 是 系统 中 当 
前 运行 的 唯一 的 程序 一 样 。 我 们 的 程序 好 像 是 独占 地 使 用 处 理 占 和 内 存 。 处 理 右 就 好 像 是 
无 间断 地 一 条 接 一 条 地 执行 我 们 程序 中 的 指令 。 最 后 ， 我 们 程序 中 的 代码 和 数据 好 像 是 系 
统 内 存 中 唯一 的 对 象 。 这 些 假象 都 是 通过 进程 的 概念 提供 给 我 们 的 。 

进程 的 经 典 定义 就 是 一 个 执行 中 程序 的 实例 。 系 统 中 的 每 个 程序 都 运行 在 某 个 进程 的 
上 下 文 (context) 中 。 上 下 文 是 由 程序 正确 运行 所 需 的 状态 组 成 的 。 这 个 状态 包括 存放 在 内 
存 中 的 程序 的 代码 和 数据 ， 它 的 栈 、 通 用 目的 寄存 需 的 内 容 、 程 序 计 数 需 、 环 境 变 量 以 及 
打开 文件 描述 符 的 集合 。 

每 次 用 户 通 过 向 shell 输入 一 个 可 执行 目标 文件 的 名 字 ， 运 行程 序 时 ，shell 就 会 创建 

一 个 新 的 进程 ， 然 后 在 这 个 新 进程 的 上 下 文中 运行 这 个 可 执行 目标 文件 。 应 用 程序 也 能 够 
创建 新 进程 ， 并 且 在 这 个 新 进程 的 上 下 文中 运行 它们 目 己 的 代码 或 其 他 应 用 程序 。 

关于 操作 系统 如 何 实现 进程 的 细节 的 讨论 超出 了 本 书 的 范围 。 反 之 ， 我 们 将 关注 进程 
提供 给 应 用 程序 的 关键 抽象 : 

e 一 个 独立 的 逻辑 控制 流 ， 它 提供 一 个 假象 ， 好 像 我 们 的 程序 独占 地 使 用 处 理 胡 。 

e 一 个 私有 的 地 址 空间 ， 它 提供 一 个 假象 ， 好 像 我 们 的 程序 独占 地 使 用 内 存 系 统 。 
让 我 们 更 深入 地 看 看 这 些 抽 和 象 。 


8. 2. 1 逻辑 控制 流 


即使 在 系统 中 通常 有 许多 其 他 程序 在 运行 ， 进 程 也 可 以 加 每 个 程序 提供 一 种 假 稼 ， 好 
像 它 在 独占 地 使 用 处 理 器 。 如 果 想 用 调试 需 单 步 执行 程序 ， 我 们 会 看 到 一 系列 的 程序 计数 


需 (PC) 的 值 ， 这 些 值 唯一 地 对 应 于 包含 进程 A 进程 B 进程 C 
在 程序 的 可 执行 目标 文件 中 的 指令 ， 或 ts 
是 包含 在 运行 时 动态 链接 到 程序 的 共享 | 
对 这 中 的 指令 。 这 个 PC 值 的 序列 叫做 到 | = J 
灶 捷 未 辣 、 或 兰 傅 称 过 入 站。 |‖ -mr--- 一 -= 一 -一 mm 由 = 
考虑 一 个 运行 着 三 个 进程 的 系统 ， | i 
如 图 8-12 所 示 。 处 理 器 的 一 个 物理 控制 ， l 
流 被 分 成 了 三 个 逻辑 流 ， 每 个 进程 一 个 。 图 8-12 逻辑 控制 流 。 进 程 为 每 个 程序 提供 了 一 种 假象， 
每 个 竖 直 的 条 表示 一 个 进程 的 逻辑 流 的 好 像 程序 在 独占 地 使 用 处 理 器 。 每 个 竖 直 的 条 


一 部 分 。 在 这 个 例子 中 ， 三 个 逻辑 流 的 表示 一 个 进程 的 逻辑 控制 流 的 一 部 分 
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执行 是 交错 的 。 进 程 A 运行 了 一 会 儿 ， 然 后 是 进程 B 开 始 运行 到 完成 。 然 后 ， 进 程 C 运 
行 了 一 会 儿 ， 进 程 A 接着 运行 直到 完成 。 最 后 ， 进 程 C 可 以 运行 到 结束 了 。 

图 8-12 的 关键 点 在 于 进程 是 轮流 使 用 处 理 器 的 。 每 个 进程 执行 它 的 流 的 一 部 分 ， 然 
后 被 抢占 (preempted)( 暂 时 挂 起 ) ， 然 后 轮 到 其 他 进程 。 对 于 一 个 运行 在 这 些 进程 之 一 的 
上 下 文中 的 程序 ， 它 看 上 去 就 像 是 在 独占 地 使 用 处 理 器 。 唯 一 的 反面 例证 是 ， 如 果 我 们 精 
确 地 测量 每 条 指令 使 用 的 时 间 ， 会 发 现在 程序 中 一 些 指 令 的 执行 之 间 ，CPU 好 像 会 周期 
性 地 停顿 。 然 而 ， 每 次 处 理 器 停顿 ， 它 随后 会 继续 执行 我 们 的 程序 ， 并 不 改变 程序 内 存 位 
置 或 寄存 带 的 内 容 。 


8.2.2 并 发 流 


计算 机 系统 中 人 逻辑 流 有 许多 不 同 的 形式 。 异 和 常 处 理 程序 、 进 程 、 信 号 处 理 程序 、 线 程 
和 Java 进程 都 是 逻辑 流 的 例子 。 

一 个 逻辑 流 的 执行 在 时 间 上 与 另 一 个 流 重 到 ， 称 为 并 发 流 (concurrent flow)， 这 两 个 
流 被 称 为 并 发 地 运行 。 更 准确 地 说 ， 流 义 和 丫 互相 并 发 ， 当 且 仅 当 义 在 YY 开始 之 后 和 YY 
结束 之 前 开始 ,或 者 Y 在 X 开 始 之 后 和 X 结束 之 前 开始 。 例如， 图 8-12 中 ,进程 A 和 B 
并 发 地 运行 ，A 和 C 也 一 样 。 男 一 方面 ，B 和 C 没有 并 发 地 运行 ， 因 为 B 的 最 后 一 条 指令 
在 C 的 第 一 条 指令 之 前 执行 。 

多 个 流 并 发 地 执行 的 一 般 现象 被 称 为 并 发 (concurrency) 。 一 个 进程 和 其 他 进程 轮流 运 
行 的 概念 称 为 多 任务 (multitasking)。 一 个 进程 执行 它 的 控制 流 的 一 部 分 的 每 一 时 间 段 叫 
做 时 间 片 (time slice)。 因 此 ， 多 任务 也 叫做 时 间 分 片 (time slicing)。 例 如 ， 图 8-12 中 ， 进 
程 A 的 流 由 两 个 时 间 片 组 成 。 

注意 ,并 发 流 的 思想 与 流 运行 的 处 理 需 核 数 或 者 计算 机 数 无 关 。 如 果 两 个 流 在 时 间 上 
重 侄 ， 那 么 它们 就 是 并 发 的 ， 即 使 它们 是 运行 在 同一 个 处 理 嚣 上。 不过， 有 时 我 们 会 发 现 
确认 并 行 流 是 很 有 帮助 的 ， 它 是 并 发 流 的 一 个 真子 集 。 如 果 两 个 流 并 发 地 运行 在 不 同 的 处 
理 需 核 或 者 计算 机 上 ， 那 么 我 们 称 它 们 为 并 行 流 (parallel flow)， 它 们 并 行 地 运行 (running 
in parallel) ， 且 并 行 地 执行 (parallel execution ) 。 

度 汉 练习 题 8. 1 考虑 三 个 具有 下 述 起 始 和 结束 时 间 的 进程 : 


A 0 2 
\ 
党 3 a 


对 于 每 对 进程 ， 指 出 它们 是 否 是 并 发 地 运行 : 








8.2.3 私有 地 址 空间 


进程 也 为 每 个 程序 提供 一 种 假象 ， 好 像 它 独占 地 使 用 系统 地 址 空间 。 在 一 台 n 位 地 址 
的 机 磊 上 ， 地 址 空间 是 2" 个 可 能 地 址 的 集合 ，0，1，…，2" 一 1。 进 程 为 每 个 程序 提供 它 
目 己 的 私有 地 址 空间 。 一 般 而 言 ， 和 这 个 空间 中 某 个 地 址 相关 联 的 那个 内 存 字 节 是 不 能 被 
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其 他 进程 读 或 者 写 的 ， 从 这 个 意义 上 说 ， 这 个 地 址 空间 是 私有 的 。 
尽管 和 每 个 私有 地 址 空间 相关 联 的 内 存 的 内 容 一 般 是 不 同 的 ， 但 是 每 个 这 样 的 空间 都 
有 相同 的 通用 结构 。 比 如 ， 图 8-13 展示 了 一 个 x86-64 Linux 进程 的 地 址 空间 的 组 织 结构 。 
地 址 空间 底部 是 保留 给 用 户 程 序 的 ， 包 括 通 常 的 人 代码、 数据、 堆 和 栈 段 。 代 码 段 总 是 
从 地 址 0x400000 开始 。 地 址 空间 项 部 保留 给 内 核 (操作 系统 常 驻 内 存 的 部 分 )。 地 址 空间 
的 这 个 部 分 包含 内 核 在 代表 进程 执行 指令 时 (比如 当 应 用 程序 执行 系统 调用 时 ) 使 用 的 代 
码 、 数 据 和 栈 。 


内 核 虚 拟 内 存 
( 代码、 数据 、 堆 、 栈 ) | 用 户 代 码 不 可 见 
> 的 内 存 
用 户 栈 
( 运 和 


sa < 一 Sesp ( 栈 指针 ) 


共享 库 的 内 存 映射 区 域 


运行 时 堆 
(用 malloc 创建 的 ) 
读 / 写 段 
( .data、.bss) 从 可 执行 
只 读 代码 段 文件 加 载 的 
(% Bnit .eR 下 六 交口 站 作 二 村 
0x00400000 —» pre 





图 8-13 ”进程 地 址 空间 


8.2.4 用 尸 模式 和 内 核 模式 


为 了 使 操作 系统 内 核 提 供 一 个 无 懈 可 击 的 进程 抽象 ， 处 理 器 必须 提供 一 种 机 制 ， 限 制 
一 个 应 用 可 以 执行 的 指令 以 及 它 可 以 访问 的 地 址 空间 范围 。 

处 理 器 通常 是 用 某 个 控制 寄存 器 中 的 一 个 模式 位 (mode bit) 来 提供 这 种 功能 的 ， 该 寄 
存 融 描述 了 进程 当前 享有 的 特权 。 当 设置 了 模式 位 时 ， 进 程 就 运行 在 内 核 模 式 中 (有 时 叫 
做 超级 用 户 模 式 )。 一 个 运行 在 内 核 模式 的 进程 可 以 执行 指令 集中 的 任何 指令 ， 并 且 可 以 
访问 系统 中 的 任何 内 存 位 置 。 

没有 设置 模式 位 时 ， 进 程 就 运行 在 用 户 模 式 中 。 用 户 模式 中 的 进程 不 允许 执行 特权 指令 
(privileged instruction) ， 比 如 停止 处 理 器 、 改 变 模 式 位 ， 或 者 发 起 一 个 IO 操作 。 也 不 允许 
用 户 模式 中 的 进程 直接 引用 地 址 空间 中 内 核 区 内 的 代码 和 数据 。 任 何 这 样 的 尝试 都 会 导致 致 
命 的 保护 故障 。 反 之 ， 用 户 程 序 必须 通过 系统 调用 接口 间接 地 访问 内 核 代 人 码 和 数据 。 

运行 应 用 程序 代码 的 进程 初始 时 是 在 用 户 模式 中 的 。 进 程 从 用 户 模式 变 为 内 核 模式 的 
唯一 方法 是 通过 诸如 中 断 、 故 障 或 者 陷 和 人 系统 调用 这 样 的 异常 。 当 异常 发 生 时 ， 探 制 传递 
到 异常 处 理 程序 ， 处 理 带 将 模式 从 用 户 模 式 变 为 内 核 模 式 。 处 理 程序 运行 在 内 核 模 式 中 ， 
当 它 返回 到 应 用 程序 代码 时 ， 处 理 器 就 把 模式 从 内 核 模式 改 回 到 用 户 模式 。 

Linux 提供 了 一 种 聪明 的 机 制 ， 叫 做 /proc 文件 系统 ， 它 允许 用 户 模 式 进 程 访问 内 核 数 
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据 结 构 的 内 容 。/proc 文件 系统 将 许多 内 核 数 据 结构 的 内 容 输 出 为 一 个 用 户 程 序 可 以 读 的 文 
本 文件 的 层次 结构 。 比 如 ， 你 可 以 使 用 /proc 文件 系统 找 出 一 般 的 系统 属性 ， 比 如 CPU 类 型 
(/proc/cpuinfo)， 或 者 某 个 特殊 的 进程 使 用 的 内 存 段 (/proc/<process-id> /maps)。2.6 
版 本 的 Linux 内 核 引 入 /sys 文件 系统 ， 它 输出 关于 系统 总 线 和 设备 的 额外 的 低层 信息 。 


8.2.5 上 下 文 切换 


操作 系统 内 核 使 用 一 种 称 为 上 下 文 切 换 (context switch) 的 较 高 层 形式 的 异常 控制 流 来 实 
现 多 任务 。 上 下 文 切 换 机 制 是 建立 在 8. 1 节 中 已 经 讨论 过 的 那些 较 低 层 异 常 机 制 之 上 的 。 

内 核 为 每 个 进程 维持 一 个 上 下 文 (context)。 上 下 文 就 是 内 核 重 新 启动 一 个 被 抢占 的 进 
程 所 需 的 状态 。 它 由 一 些 对 象 的 值 组 成 ， 这 些 对 象 包括 通用 目的 寄存 盘 、 浮 点 寄存 前 、 程 
序 计数 器 、 用 户 栈 、 状 态 寄 存 器 、 内 核 栈 和 各 种 内 核 数 据 结 构 ， 比 如 描述 地 址 空间 的 页 
表 、 包 含有 关 当 前 进程 信息 的 进程 表 ， 以 及 包含 进程 已 打开 文件 的 信息 的 文件 表 。 

在 进程 执行 的 某 些 时 刻 ， 内 核 可 以 决定 抢占 当前 进程 ， 并 重新 开始 一 个 先前 被 抢占 了 
的 进程 。 这 种 决策 就 叫做 调度 (scheduling)， 是 由 内 核 中 称 为 调度 器 (scheduler) 的 代码 处 
理 的 。 当 内 核 选择 一 个 新 的 进程 运行 时 ， 我 们 说 内 核 调度 了 这 个 进程 。 在 内 核 调度 了 一 个 
新 的 进程 运行 后 ， 它 就 抢占 当前 进程 ， 并 使 用 一 种 称 为 上 下 文 切 换 的 机 制 来 将 控制 转移 到 
新 的 进程 ， 上 于 文 切换 1) 保 存 当 前 进程 的 上 下 文 ，2) 恢 复 某 个 先前 被 抢占 的 进程 被 保存 的 
上 下 文 ，3) 将 控制 传递 给 这 个 新 恢复 的 进程 。 

当 内 核 代 表 用 户 执 行 系统 调用 时 ， 可 能 会 发 生 上 下 文 切 换 。 如 果 系 统 调 用 因为 等 待 某 
个 事件 发 生 而 阻塞 ， 那 么 内 核 可 以 让 当前 进程 休眠 ， 切 换 到 另 一 个 进程 。 比 如 ， 如 宁 一 个 
read 系统 调 用 需要 访问 磁盘 ， 内 核 可 以 选择 执行 上 下 文 切换 ， 运 行 妨 外 一 个 进程 ， 而 不 
是 等 待 数据 从 磁盘 到 达 。 男 一 个 示例 是 sleep 系统 调用 ， 它 显 式 地 请 求 让 调用 进程 休 眼 。 
一 般 而 言 ， 即 使 系统 调用 没有 阻塞， 内 核 也 可 以 决定 执行 上 下 文 切换 ， 而 不 是 将 控制 返回 
给 调用 进程 。 

中 断 也 可 能 引发 上 下 文 切 换 。 比 如 ， 所 有 的 系统 都 有 某 种 产生 周期 性 定时 器 中 断 的 机 
制 ， 通 常 为 每 1 毫秒 或 每 10 上 毫秒。 每 次 发 生 定时 费 中 断 时 ， 内 核 就 能 判定 当前 进程 已 经 
运行 了 足够 长 的 时 间 ， 并 切换 到 一 个 新 的 进程 。 

图 8-14 展示 了 一 对 进程 A 和 B 之 间 上 下 文 切 换 的 示例 。 在 这 个 例子 中 ， 进 程 A 初始 
运行 在 用 户 模 式 中 ， 直 到 它 通过 执行 系统 调用 read 陷入 到 内 核 。 内 核 中 的 陷阱 处 理 程 序 
请 求 来 自 磁盘 控制 器 的 DMA 传输 ， 并 且 安 排 在 磁盘 控制 器 完成 从 磁盘 到 内 存 的 数据 传输 
后 ， 磁 盘 中 断 处 理 需 。 


本 全 进程 A ”! ”进程 B 
\ 用 户 模式 
read ww > 
| 内 核 模式 。 上 上 下 文 切换 
磁盘 中 扬 seedeons » ' 用 户 模 式 
从 read 返回 Te 吉 内 核 模式 } 上 下 文 切换 


| 用 户 模 式 


几 8-14 进程 上 下 文 切换 的 剖析 
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磁盘 取 数 据 要 用 一 段 相 对 较 长 的 时 间 ( 数 量 级 为 几 十 毫秒 ) ， 所 以 内 核 执 行 从 进程 A 到 
进程 也 的 上 下 文 切换 ， 而 不 是 在 这 个 间歇 时 间 内 等 待 ， 什 么 都 不 做 。 注 意 在 切换 之 前 ， 内 
核 正 代表 进程 A 在 用 户 模 式 下 执行 指令 ( 即 没有 单独 的 内 核 进程 )。 在 切换 的 第 一 部 分 中 ， 
内 核 代表 进程 A 在 内 核 模式 下 执行 指令 。 然 后 在 某 一 时 刻 ， 它 开始 代表 进程 B( 仍 然 是 内 
核 模式 下 ) 执 行 指令 。 在 切换 之 后 ， 内 核 代表 进程 B 在 用 户 模 式 下 执行 指令 。 

随后 ， 进 程 在 用 户 模式 下 运行 一 会 儿 ， 直 到 磁盘 发 出 一 个 中 断 信和 号， 表示 数据 已 经 
从 磁盘 传送 到 了 内 存 。 内 核 判 定 进程 B 已 经 运行 了 足够 长 的 时 间 ， 就 执行 一 个 从 进程 B 到 
进程 A 的 上 下 文 切换 ， 将 控制 返回 给 进程 A 中 紧 随 在 系统 调用 read 之 后 的 那 条 指令 。 进 
程 A 继续 运行 ， 直 到 下 一 次 异常 发 生 ， 依 此 类 推 。 


8.3 系统 调用 销 误 处 理 

当 Unix 系统 级 蚂 数 遇 到 错误 时 ， 它 们 通常 会 返回 一 1， 并 设置 全 局 整数 变量 errno 
来 表示 什么 出 错 了 。 程 序 员 应 该 总 是 检查 错误 ， 但 是 不 幸 的 是 ， 许 多 人 都 忽略 了 错误 检 
查 ， 因 为 它 使 代码 变 得 腔 肿 ， 而 且 难 以 读 懂 。 比 如 ， 下 面 是 我 们 调用 Unix fork 函数 时 会 
如 何 检查 错误 : 

1 if ((pid = fork()) < 0) { 

2 fprintf(stderr, "fork error: %s\n", strerror(errno)); 

3 exit(0); 

4 } 

strerror 晴 数 返回 一 个 文本 串 ， 描 述 了 和 某 个 errno 值 相 关联 的 错误 。 通 过 定义 下 
面 的 错误 报告 函数 ， 我 们 能 够 在 某 种 程度 上 简化 这 个 代码 ; 

1 void unix_error (char *msg) /* Unix-style error */ 

加 “。 乞 

3 fprintf(stderr, "hs: hs\n", msg, strerror(errno)); 

4 exit(0); 

5 过 

给 定 这 个 函数 ， 我们 对 fork 的 调用 从 4 行 缩减 到 2 行 : 

1 if ((pid = fork()) < 0) 

2 unix_error("fork error'"): 

通过 使 用 错误 处 理 包 装 函 数 ， 我 们 可 以 更 进一步 地 简化 代码 ，Stevens 在 [110] 中 首先 
提出 了 这 种 方法 。 对 于 一 个 给 定 的 基本 函数 foo， 我 们 定义 一 个 具有 相同 参数 的 包装 函数 
Foo， 但 是 第 一 个 字母 大 写 了 。 包 装 子 数 调 用 基本 函数 ,检查 错误 ， 如 果 有 任何 问题 就 终 
目 。 比 如 ， 下 面 是 fork 了 荫 数 的 错误 处 理 包 装 明 数 : 


1 pid_t Fork(void) 


2 东 

3 pid_t pid; 

4 

5 if ((pid = fork()) < 0) 

6 unix_error("Fork error"); 
7 return pid; 

8 } 


给 定 这 个 包装 图 数 ， 我 们 对 fork 的 调用 就 缩减 为 工行 : 
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1 pid = Fork(); 


我 们 将 在 本 书 剩余 的 部 分 中 都 使 用 错误 处 理 包 装 函 数 。 它 们 能 够 保持 代码 示例 人 简洁， 而 
又 不 会 给 你 错误 的 假象 ， 认 为 允许 忽略 错误 检查 。 注 意 ， 当 在 本 书 中 谈 到 系统 级 男 数 时 ， 我 
们 总 是 用 它们 的 小 写字 母 的 基本 名 字 来 引用 它们 ， 而 不 是 用 它们 大 写 的 包装 肾 数 名 来 引用 。 

关于 Unix 错误 处 理 以 及 本 书 中 使 用 的 错误 处 理 包 装 哨 数 的 讨论 ， 请 参见 附录 A。 包 
装 函 数 定义 在 一 个 叫做 csapp.c 的 文件 中 ， 它 们 的 原型 定义 在 一 个 叫做 csapp.h 的 头 文 
件 中 ; 可 以 从 CS:APP 网 站 上 在 线 地 得 到 这 些 代码 。 


8.4 进程 控制 

Unix 提供 了 大 量 从 C 程序 中 操作 进程 的 系统 调用 。 这 一 节 将 描述 这 些 重要 的 函数 ， 
并 举例 说 明 如 何 使 用 它们 。 
8.4.1 获取 进程 ID 

每 个 进程 都 有 一 个 唯一 的 正 数 ( 非 零 ) 进 程 ID(PID)。agetpid 函数 返回 调用 进程 的 PID。 
getppid 函数 返回 它 的 父 进程 的 PID( 创 建 调用 进程 的 进程 )。 


#include <sys/types.h> 
#include <unistd.h> 


pid_t getpid(void) ; 
pid_t getppid(void); 


返回 : 调用 者 或 其 父 进程 的 PID。 





getpid 和 getppid 函数 返回 一 个 类 型 为 pid 七 的 整数 值 ， 在 Linux 系统 上 它 在 
types.h 中 被 定义 为 int。 


8.4.2 创建 和 终止 进程 


从 程序 员 的 角度 ， 我 们 可 以 认为 进程 总 是 处 于 下 面 三 种 状态 之 一 : 

e@ 运行 。 进 程 要 么 在 CPU 上 执行 ， 要 么 在 等 待 被 执行 且 最 终 会 被 内 核 调度 。 

e@ 停止 。 进 程 的 执行 被 挂 起 (suspended)， 且 不 会 被 调度 。 当 收 到 SIGSTOP、SIGT- 
STP、SIGTTIN 或 者 SIGTTOU 信号 时 ， 进 程 就 停止 ,并且 保持 停止 直到 它 收 到 
一 个 SIGCONT 信号 ， 在 这 个 时 刻 ， 进 程 再 次 开始 运行 。( 信 号 是 一 种 软件 中 断 的 
形式 ， 将 在 8. 5 节 中 详细 描述 。)》 

e@ 终止 。 进 程 永远 地 停止 了 。 进 程 会 因为 三 种 原因 终止 ; 1) 收 到 一 个 信号 ， 该 信号 的 
默认 行为 是 终止 进程 ， 2) 从 主 程序 返回 ，3) 调 用 exit 天 数 。 


#include <stdlib.h> 


void exit(int status); 





exit 函数 以 status 退出 状态 来 终止 进程 ( 另 一 种 设置 退出 状态 的 方法 是 从 主 程序 中 
返回 一 个 整数 值 ) 。 
父 进 程 通过 调用 fork 函数 创建 一 个 新 的 运行 的 子 进 程 。 
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#include <sys/types.h> 
#include <unistd.h> 


pid fork(void) ; 


返回 : 子 进程 返回 0， 父 进程 返回 子 进 程 的 PID， 如 果 出 错 ， 则 为 一 1。 





新 创建 的 子 进程 几乎 但 不 完全 与 父 进程 相同 。 子 进程 得 到 与 父 进程 用 户 级 虚拟 地 址 空间 相 
同 的 (但 是 独立 的 ) 一 份 副 本 ， 包 括 代 码 和 数据 段 、 堆 、 共 享 库 以 及 用 户 栈 。 子 进程 还 获得 与 父 
进程 任何 打开 文件 描述 符 相 同 的 副本 ， 这 就 意味 着 当 父 进程 调用 fork 时 ， 子 进程 可 以 读 写 父 
进程 中 打开 的 任何 文件 。 父 进程 和 新 创建 的 子 进程 之 间 最 大 的 区 别 在 于 它们 有 不 同 的 PID。 

fork 函数 是 有 趣 的 (也 常常 令 人 迷惑 )， 因 为 它 只 被 调用 一 次 ， 却 会 返回 两 次 : 一 次 
是 在 调用 进程 ( 父 进 程 ) 中 ， 一 次 是 在 新 创建 的 子 进程 中 。 在 父 进 程 中 ，fork 返回 子 进程 
的 PID。 在 子 进程 中 ，fork 返回 0。 因为 子 进程 的 PID 总 是 为 非 零 ， 返 回 值 就 提供 一 个 明 
确 的 方法 来 分 辩 程 序 是 在 父 进程 还 是 在 子 进程 中 执行 。 

图 8-15 展示 了 一 个 使 用 fork 创建 子 进程 的 父 进 程 的 示例 。 当 fork 调用 在 第 6 行 返 
回 时 ， 在 父 进程 和 子 进程 中 x 的 值 都 为 1。 子 进程 在 第 8 行 加 一 并 输出 它 的 x 的 副本 。 相 
似 地 ， 父 进程 在 第 13 行 减 一 并 输出 它 的 x 的 副本 。 


code/ecHfork.c 
| int main() 
3 pid_t pid; 
4 nbtx 三 二， 
5 
6 pid = Fork() ; 
7 if (pid == 0) { /* Child */ 
8 printf(“child : ZN 二 HE; 
9 exit(0); 
10 
11 
12 /* Parent */ 
9 printf("parent: x=%d\n", --x); 
14 exit(0); 
15 } 
code/ecf/fork.c 


图 8-15 使 用 fork 创建 一 个 新 进程 
当 在 Unix 系统 上 运行 这 个 程序 时 ， 我 们 得 到 下 面 的 结果 : 


linux> ./fork 

parent: x=0 

child : x=2 

这 个 简单 的 例子 有 一 些微 妙 的 方面 。 

@ 调用 一 次 ， 返 回 两 次 。fork 函数 被 父 进 程 调用 一 次 ,但 是 却 返 回 两 次 一 一 一 次 是 
返回 到 父 进 程 ,一 次 是 返回 到 新 创建 的 子 进程 。 对 于 只 创建 一 个 子 进程 的 程序 来 
说 ， 这 还 是 相当 简单 直接 的 。 但 是 具有 多 个 fork 实例 的 程序 可 能 就 会 令 人 迷惑 ， 
需要 仔细 地 推 殴 了 。 

e@ 并 发 执行 。 父 进程 和 子 进程 是 并 发 运行 的 独立 进程 。 内 核能 够 以 任意 方式 交 蔡 执行 
它们 的 逻辑 控制 流 中 的 指令 。 在 我 们 的 系统 上 运行 这 个 程序 时 ， 父 进程 先 完 成 它 的 
printf 语句 ， 然 后 是 子 进程 。 然 而 ， 在 另 一 个 系统 上 可 能 正好 相反 。 一 般 而 言 ， 
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作为 程序 员 ， 我 们 决 不 能 对 不 同 进 程 中 指令 的 交 蔡 执行 做 任何 假设 。 
@ 相同 但 是 独立 的 地 址 空间 。 如 果 能 够 在 fork 函数 在 父 进 程 和 子 进程 中 返回 后 立即 
暂停 这 两 个 进程 ， 我 们 会 看 到 两 个 进程 的 地 址 空间 都 是 相同 的 。 每 个 进程 有 相同 的 
用 户 栈 、 相 同 的 本 地 变量 值 、 相 同 的 堆 、 相 同 的 全 局 变量 值 ， 以 及 相同 的 代码 。 因 
此 ， 在 我 们 的 示例 程序 中 ， 当 fork 函数 在 第 6 行 返 回 时 ， 本 地 变量 x 在 父 进 程 和 
子 进程 中 都 为 1。 然 而， 因为 父 进 程 和 子 进程 是 独立 的 进程 ， 它 们 都 有 自己 的 私有 
地 址 空间 。 后 面 ， 父 进程 和 子 进程 对 x 所 做 的 任何 改变 都 是 独立 的 ， 不 会 反映 在 另 
一 个 进程 的 内 存 中 。 这 就 是 为 什么 当 父 进程 和 子 进程 调用 它们 各 自 的 printf 语句 
时 ， 它 们 中 的 变量 x 会 有 不 同 的 值 。 
@ 共享 文件 。 当 运行 这 个 示例 程序 时 ， 我 们 注意 到 父 进 程 和 子 进 程 都 把 它们 的 输出 显 
示 在 屏幕 上 上。 原因 是 子 进程 继承 了 父 进程 所 有 的 打开 文件 。 当 父 进程 调用 fork 时 ， 
stdout 文件 是 打开 的 ， 并 指向 屏幕 。 子 进程 继承 了 这 个 文件 ， 因 此 它 的 输出 也 是 
指向 屏幕 的 。 
如 果 你 是 第 一 次 学 习 fork 函数 ， 画 进程 图 通常 会 有 所 帮助 ， 进 程 图 是 刻画 程序 语句 的 
偏 序 的 一 种 简单 的 前 趋 图 。 每 个 顶点 a 对 应 于 一 条 程序 语句 的 执行 。 有 向 边 a>b 表示 语句 a 
发 生 在 语句 5 之 前 。 边 上 可 以 标记 出 一 些 信息 ， 例 如 一 个 变量 的 当前 值 。 对 应 于 printf 语 
句 的 顶点 可 以 标记 上 printf 的 输出 。 每 张 图 从 一 个 顶点 开始 ， 对 应 于 调用 main 的 父 进 程 。 
这 个 顶点 没有 人 边 ， 并 且 只 有 一 个 出 边 。 每 个 进程 的 顶点 序列 结束 于 一 个 对 应 于 exit 调用 
的 顶点 。 这 个 顶点 只 有 一 条 入 边 ， 没 有 出 边 。 


加: ' 芝 = 这 
例如 ， 图 8-16 展示 了 图 8-15 中 示例 程序 i J 子 进程 

的 进程 图 。 初 始 时 ， 父 进程 将 变量 x 设置 为 ,| ,wn 
1。 父 进程 调用 fork， 创 建 一 个 子 进程 ， 它 main fork printf exit ee 


在 自己 的 私有 地 址 空间 中 与 父 进 程 并 发 执行 。 

对 于 运行 在 单 处 理 右 上 的 程序 ， 对 应 进 
程 图 中 所 有 顶点 的 拓扑 排序 (topological sort) 表 示 程 序 中 语句 的 一 个 可 行 的 全 序 排列 。 下 
面 是 一 个 理解 拓扑 排序 概念 的 简单 方法 : 给 定 进 程 图 中 顶点 的 一 个 排列 ， 把 顶点 序列 从 左 
到 右 写 成 一 行 ， 然 后 画 出 每 条 有 疝 边 。 排 列 是 一 个 拓扑 排序 ， 当 且 仅 当 画 出 的 每 条 边 的 方 
向 都 是 从 左 往 右 的 。 因 此 ， 在 图 8-15 的 示例 程序 中 ， 父 进程 和 子 进程 的 printf 语句 可 以 
以 任意 先后 顺序 执行 ， 因 为 每 种 顺序 都 对 应 于 图 顶点 的 某 种 拓扑 排序 。 

进程 图 特别 有 助 于 理解 带 有 艇 套 fork 调用 的 程序 。 例 如 ， 图 8-17 中 的 程序 源码 中 两 
次 调用 了 fork。 对 应 的 进程 图 可 帮助 我 们 看 清 这 个 程序 运行 了 四 个 进程 ， 每 个 都 调用 了 
一 次 printf， 这 些 printf 可 以 以 任意 顺序 执行 。 


到 8-16 图 8-15 中 示例 程序 的 进程 图 
















1 int main() wai je 
\ printf exit 
r oe hello 

4 Fork() ; 
5 printf ("hello\n");, printf exit 
n exit (0); hello 

和 


printf exit 





hello 


main fork fork printf ‘exit 


站 8-17 骨 套 fork 的 进程 图 
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训练 习题 8. 2 考虑 下 面 的 程序 : 


code/ectforkprob0.c 
1 int main() 
2 4 
3 int x = 1; 
4 
5 if (Fork() == 0) 
6 Brintit nl edNat ry 
7 printf ("p2: x=%d\n", --x); 
8 exit (0); 
- 二 时， 

code/ect/forkprob0.c 


A. 子 进 程 的 输出 是 什么 ? 
B. 父 进 程 的 输出 是 什么 ? 


8.4.3 回收 子 进程 


当 一 个 进程 由 于 某 种 原因 终止 时 ， 内 核 并 不 是 立即 把 它 从 系统 中 清除 。 相 反 ， 进 程 被 
保持 在 一 种 已 终止 的 状态 中 ， 直 到 被 它 的 父 进程 回收 (reaped)。 当 父 进程 回收 已 终止 的 子 
进程 时 ， 内 核 将 子 进程 的 退出 状态 传递 给 父 进程 ， 然后 抛弃 已 终止 的 进程 ， 从 此 时 开始 ， 
该 进程 就 不 存在 了 。 一 个 终止 了 但 还 未 被 回收 的 进程 称 为 僵 死 进程 (zomble) 。 


ES 为 什么 已 终止 的 子 进程 被 称 为 伪 死 进程 ? 
在 民间 传说 中 ， 人 和 僵尸 是 活着 的 尸体 ， 一 种 半生 半死 的 实体 。 僵 死 进程 已 经 终止 了 ， 
而 内核 仍 保留 着 它 的 某 些 状态 直到 父 进程 回收 它 为 止 ， 从 这 个 意义 上 说 它们 是 类 似 的 。 


如 果 一 个 父 进程 终止 了 ， 内 核 会 安排 init 进程 成 为 它 的 孤儿 进程 的 养父 。init 进程 
的 PID 为 1， 是 在 系统 启动 时 由 内 核 创建 的 ， 它 不 会 终止 ， 是 所 有 进程 的 祖先 。 如 有 果 父 进 
程 没 有 回收 它 的 僵 死 子 进程 就 终止 了 了 ， 那 么 内 核 会 安排 init 进程 去 回收 它们 。 不 过 ， 长 
时 间 运 行 的 程序 ， 比 如 shell 或 者 服务 器 ， 总 是 应 该 回收 它们 的 僵 死 子 进 程 。 即 使 僵 死 子 
进程 没有 和 运行， 它们 仍然 消耗 系统 的 内 存 资 源 。 

一 个 进程 可 以 通过 调用 waitpid 函数 来 等 待 它 的 子 进程 终止 或 者 停止 。 


#include <sys/types.h> 
#include <sys/wait.h> 


pid_t waitpid(pid_t pid, int *statusp, int options) ; 
返回 : 如 果 成 功 ， 则 为 子 进程 的 PID， 如 果 WNOHANG， 则 为 0， 如 果 其 他 错误 ， 则 为 一 1。 





waitpid 函数 有 点 复杂 。 默 认 情 况 下 ( 当 options=0 时 )，waitpid 挂 起 调用 进程 的 
执行 ， 直 到 它 的 等 待 集合 (wait set) 中 的 一 个 子 进程 终止 。 如 果 等 待 集合 中 的 一 个 进程 在 
刚 调 用 的 时 刻 就 已 经 终止 了 ， 那 么 waitpid 就 立即 返回 。 在 这 两 种 情况 中 ，waitpid 返 
回 导致 waitpid 返回 的 已 终止 子 进程 的 PID。 此 时 , 已 终止 的 子 进程 已 经 被 回收 ， 内 核 会 
从 系统 中 删除 抒 它 的 所 有 猴 迹 。 

1. 判定 等 待 集合 的 成 员 

等 待 集合 的 成 员 是 由 参数 pid 来 确定 的 : 
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e 如 果 pid>0， 那 么 等 待 集合 就 是 一 个 单独 的 子 进程 ， 它 的 进程 ID 等 于 pid。 

e 如果 pid=-1， 那 么 等 竺 集合 就 是 由 父 进 程 所 有 的 子 进程 组 成 的 。 

waitpid 因数 还 支持 其 他 类 型 的 等 竺 集合， 包括 Unix 进程 组 ， 对 此 我 们 将 不 做 讨论 。 

2. 修改 默认 行为 

可 以 通过 将 options 设置 为 常量 WNOHANG、WUNTRACED 和 WCONTINUED 

的 各 种 组 合 来 修改 默认 行为 : 

e WNOHANG: 如 果 等 待 集合 中 的 任何 子 进程 都 还 没有 终止 ， 那么 就 立即 返回 (返回 
值 为 0)。 默 认 的 行为 是 挂 起 调用 进程 ， 直 到 有 子 进程 终止 。 在 等 待 子 进程 终止 的 同 
时 ， 如 果 还 想 做 些 有 用 的 工作 ， 这 个 选项 会 有 用 。 

e WUNTRACED: 挂 起 调用 进程 的 执行 ， 直 到 等 待 集合 中 的 一 个 进程 变 成 已 终止 或 者 
被 停止 。 返 回 的 PID 为 导致 返回 的 已 终止 或 被 停止 子 进程 的 PID。 默 认 的 行为 是 只 返 
回 已 终止 的 子 进 程 。 当 你 想 要 检查 已 终止 和 被 停止 的 子 进程 时 ， 这 个 选项 会 有 用 。 

e WCONTINUED: 挂 起 调用 进程 的 执行 ， 直 到 等 待 集合 中 一 个 正在 运行 的 进程 终止 
或 等 竺 集合 中 一 个 被 停止 的 进程 收 到 SIGCONT 信号 重新 开始 执行 。(8. 5 节 会 解释 
这 些 信号。) 

可 以 用 或 运算 把 这 些 选项 组 合 起 来 。 例 如 : 

e WNOHANG | WUNTRACED: 立即 返回 ， 如 果 等 待 集合 中 的 子 进程 都 没有 被 停 
止 或 终止 ， 则 返回 值 为 0; 如果 有 一 个 停止 或 终止 ， 则 返回 值 为 该 子 进程 的 PID。 

3. 检查 已 回收 子 进程 的 退出 状态 

如 果 statusp 参数 是 非 空 的 ， 那 么 waitpid 就 会 在 status 中 放 上 关于 导致 返回 的 

子 进程 的 状态 信息 ，status 是 statusp 指向 的 值 。wait.h 头 文件 定义 了 解释 status 参 
数 的 几 个 宏 : 

e WIFEXITED( status): 如 果子 进程 通过 调用 exit 或 者 一 个 返回 (return) 正 常 终 
止 ， 就 返回 真 。 

e WEXITSTATUS(status): 返回 一 个 正常 终止 的 子 进程 的 退出 状态 。 只 有 在 
WIFEXITED() 返 回 为 真 时 ， 才 会 定义 这 个 状态 。 

e WIFSIGNALED(status): 如 果子 进程 是 因为 一 个 未 被 捕获 的 信号 终止 的 ， 那 么 
就 返回 真 。 

e WTERMSIG (status): 返回 导致 子 进程 终止 的 信号 的 编号 。 只 有 在 WIFSIG- 
NALED() 返 回 为 真 时 ， 才 定义 这 个 状态 。 

e WIFSTOPPED(status): 如 果 引 起 返回 的 子 进 程 当 前 是 停止 的 ， 那 么 就 返回 真 。 

e WSTOPSIG(status): 返回 引起 子 进程 停止 的 信号 的 编号 。 只 有 在 WIFSTOPPED() 
返回 为 真 时 ， 才 定义 这 个 状态 。 

e WIFCONTINUED( status): 如 果子 进程 收 到 SIGCONT 信和 号 重新 启动 ， 则 返回 真 。 

4. 错误 条 件 

如 果 调 用 进程 没有 子 进程 ,那么 waitpid 返 回 一 1， 并 且 设 置 errno 为 ECHILD。 如 

果 waitpid 图 数 被 一 个 信号 中 断 ， 那 么 它 返回 一 1， 并 设置 errno 为 EINTR。 


EE 和 Unix 函数 相关 的 常量 
像 WNOHANG 和 WUNTRACED 这 样 的 常量 是 由 系统 头 文件 定义 的 。 例 如 ，WNO- 
HANG 和 WUNTRACED 是 由 wait.h 头 文件 (间接 ) 定 义 的 : 


/* Bits in the third argument to 'waitpid'. */ 

#define WNOHANG 1 /* Don't block waiting, */ 

#define WUNTRACED 2 /* Report status of stopped children. */ 
为 了 使 用 这 些 常 量 ， 必 须 在 代码 中 包含 wait.h 头 文件 : 


#include <sys/wait.h> 
每 个 Unix 函数 的 man 页 列 出 了 无 论 何 时 你 在 代码 中 使 用 那个 函数 都 要 包含 的 头 文件 。 
同时 ， 为 了 检查 诸如 ECHILD 和 EINTR 之 类 的 返回 代码 ， 你 必须 包含 errno.h。 为 了 
简化 代码 示例 ， 我 们 包含 了 一 个 称 为 csapp.h 的 头 文件 ， 它 包括 了 本 书 中 使 用 的 所 有 
邓 数 的 头 文 件 。csapp.h 头 文件 可 以 从 CS: APP 网 站 在 线 获得 。 


ES 练习 题 8. 3 列 出 下 面 程 序 所 有 可 能 的 输出 序列 : 


code/ecf/waitprob0.c 
] int main() 
安 < 
3 if (Fork() == 0) { 
4 printf("a"); fflush(stdout); 
5 上 
6 else + 
7 printf("b"); fflush(stdout); 
8 waitpid(-1, NULL, 0); 
9 } 
10 printf("c"); fflush(stdout); 
11 exit(0); 
区 站 
code/ecf/waitprob0.c 
5. wait 函数 


wait 国 数 是 waitpid 函数 的 简单 版 本 : 


#include <sys/types.h> 
#include <sys/wait.h> 


pid_t wait(int *statusp); 





返回 : 如 果 成 功 ， 则 为 子 进 程 的 PID， 如 果 出 错 ， 则 为 一 1。 


调用 wait(&status) 等 价 于 调用 waitpid(- 1,&status,0)。 

6. 使 用 waitpid 的 示例 

因为 waitpiq 函数 有 些 复杂 ， 看 几 个 例子 会 有 所 帮助 。 图 8-18 展示 了 一 个 程序 ， 它 
使 用 waitpid， 不 按照 特定 的 顺序 等 待 它 的 所 有 NN 个 子 进程 终止 。 在 第 11 行 ， 父 进程 创 
建 N 个 子 进程 ， 在 第 12 行 ， 每 个 子 进程 以 一 个 唯一 的 退出 状态 退出 。 在 我 们 继续 讲解 之 
前 ， 请 确认 你 已 经 理解 为 什么 每 个 子 进程 会 执行 第 12 行 ， 而 父 进 程 不 会 。 

在 第 15 行 ， 父 进程 用 waitpid 作为 while 循环 的 测试 条 件 ， 等 待 它 所 有 的 子 进 程 终 
止 。 因 为 第 一 个 参数 是 一 1， 所 以 对 waitpid 的 调用 会 阻塞 ， 直 到 任意 一 个 子 进程 终止 。 
在 每 个 子 进 程 终止 时 ， 对 waitpid 的 调用 会 返回 ， 返 回 值 为 该 子 进程 的 非 零 的 PID。 第 
16 行 检查 子 进程 的 退出 状态 。 如 果子 进程 是 正常 终止 的 一 一 在 此 是 以 调用 exit 因数 终止 
的 一 一 那么 父 进程 就 提取 出 退出 状态 ， 把 它 输出 到 stdout 上 。 
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coOdeecjmwaitpidy.c 
#include "csapp.h" 


| 

2 #define N 2 

3 

4 int main() 

$5 

6 inb Gtabtus: 工 ; 

7 pid.t pid; 

8 

9 /* Parent creates N children */ 

10 for (i = 0; i < N; i++) 

11 if ((pid = Fork()) == 0) /* Child */ 

12 exit (100+i ); 

13 

14 /* Parent reaps N children in no particular order */ 

15 while ((pid = waitpid(-1, &status, 0)) > 0) 攻 

16 if (WIFEXITED(status)) 

17 Printf("child %d terminated normally with exit status=hd\n", 
18 pid, WEXITSTATUS (status)); 

19 else 

20 Printf("child %d terminated abnormally\n", pid); 
21 } 

22 

23 /* The only normal termination is if there are no more children */ 
24 if (errno != ECHILD) 

25 unix_error("waitpid error"); 

26 

27 exit (0); 

28 小 


CoOde/ecjmaitpid7.c 
加 518 使 用 waitpid 函数 不 按照 特定 的 顺序 回收 优 死 子 进程 


当 回 收 了 所 有 的 子 进程 之 后 ， 再 调用 waitpid 就 返回 一 1， 并且 设置 errno 为 
ECHILD。 第 24 行 检 查 waitpid 函数 是 正常 终止 的 ， 否 则 就 输出 一 个 错误 消息 。 在 我 们 
的 Linux 系统 上 运行 这 个 程序 时 ， 它 产生 如 下 输出 : 

linux> ./waitpid!1 


child 22966 terminated normally with exit status=100 
child 22967 terminated normally with exit status=101 


注意 ， 程 序 不 会 按照 特定 的 顺序 回收 子 进程 。 子 进程 回收 的 顺序 是 这 台 特 定 的 计算 机 
系统 的 属性 。 在 另 一 个 系统 上 ， 甚 至 在 同一 个 系统 上 再 执行 一 次 ， 两 个 子 进程 都 可 能 以 相 
反 的 顺序 被 回收 。 这 是 非 确定 性 行为 的 一 个 示例 ， 这 种 非 确 定性 行为 使 得 对 并 发 进行 推理 
非常 困难 。 两 种 可 能 的 结果 都 同样 是 正确 的 ， 作 为 一 个 程序 员 ， 你 绝 不 可 以 假设 总 是 会 出 
现 某 一 个 结果 ， 无 论 多 么 不 可 能 出 现 为 一 个 结果 。 唯 一 正确 的 假设 是 每 一 个 可 能 的 结果 者 
同样 可 能 出 现 。 

图 8-19 展示 了 一 个 简单 的 改变 ， 它 消除 了 这 种 不 确定 性 ， 按 照 父 进程 创建 子 进程 的 相同 
顺序 来 回收 这 些 子 进程 。 在 第 11 行 中 ， 父 进程 按照 顺序 存储 了 它 的 子 进程 的 PID， 然 后 通过 
用 适当 的 PID 作为 第 一 个 参数 来 调用 waitpid， 按 照 同样 的 顺序 来 等 待 每 个 子 进 程 。 
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code/ecf/waitpid2.c 
1 #include "csapp.h" 
2 #define N 2 
3 
4 int main() 
5 
6 也 吉 恤 SS 二 
7 pid_t pid[N] , retpid; 
5 
9 /* Parent creates N children */ 
10 for ( = 0; i < N; i++) 
11 if ((pid[i] = Fork()) == 0) /* Child */ 
12 exit(100+i); 
13 
14 /* Parent reaps N children in order */ 
15 i = 0; 
16 while ((retpid = waitpid(pid[i++], &status, 0)) > 0) { 
17 if (WIFEXITED(status)) 
18 printf("child %d terminated normally with exit status=hd\n", 
19 retpid, WEXITSTATUS (status)); 
20 else 
21 printf("child %d terminated abnormally\n", retpid); 
22 } 
23 
24 /* The only normal termination is if there are no more children */ 
25 if (errno != ECHILD) 
26 unix_error("waitpid error"); 
27 
28 exit(0); 
29 


code/ecf/waitpid2.c 
图 8-19 使 用 waitpiad 按照 创建 子 进程 的 顺序 来 回收 这 些 伪 死 子 进程 


本 又 练习 题 8.4 考虑 下 面 的 程序 : 


code/ecf/waitprobl.c 
1 int maint() 
2 4 
3 int status,; 
4 Did.t Bid; 
5 
6 printf ("Hello\n"); 
7 pid = Fork(); 
8 printf ("na\n", Ipid)s 
9 if (pid != 0) { 
10 if (waitpid(-1, &status, 0) > 0) { 
11 if (WIFEXITED(status) != 0) 
12 printf("Hd\n", WEXITSTATUS (status)); 
13 } 
14 } 
15 printf ("Bye\n'"); 
16 exit(2); 
Fa 


code/ecf/waitprobl.c 
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A, 这 个 程序 会 产生 多 少 输出 行 ? 
B. 这 些 输 出 行 的 一 种 可 能 的 顺序 是 什么 ? 


8. 4. 4 ”让 进程 休眠 
sleep 了 艺 数 将 一 个 进程 挂 起 一 段 指 定 的 时 间 。 


#include <unistd.h> 


unsigned int sleep(unsigned int secs); 


返回 : 还 要 休眠 的 秒 数 。 





如 果 请 求 的 时 间 量 已 经 到 了 ，sleep 返回 0， 否则 返回 还 剩 下 的 要 休眠 的 秒 数 。 后 一 
种 情况 是 可 能 的 ， 如 果 因 为 sleep 函数 被 一 个 信号 中 断 而 过 早 地 人 返回。 我 们 将 在 8. 5 节 中 
详细 讨论 信号。 

我 们 会 发 现 男 一 个 很 有 用 的 函数 是 pause 困 数 ， 该 困 数 让 调用 困 数 休眠 ， 直 到 该 进程 
收 融 一 个 入 号 。 


#include <unistd.h> 


int pause(void); 





起 邓 练习 题 8. 5 编写 一 个 sleep 的 包装 函数 ， 叫做 snooze， 带 有 下 面 的 接口 : 


unsigned int snooze(unsigned int secs); 


snooze 函数 和 sleep 函数 的 行为 完全 一 样 ， 除 了 它 会 打印 出 一 条 消息 来 描述 进程 实 
际 休 虐 了 多 长 时 间 : 
Slept for 4 of 5 secs. 


8. 4.5 加载 并 运行 程序 
execve 图 数 在 当前 进程 的 上 下 文中 加 载 并 运行 一 个 新 程序 。 


#include <unistd.h> 


int execve(const char *filename, const char *argv[] ， 


const char *envp[]); 





如 果 成 功 ， 则 不 返回 ， 如 果 错 误 ， 则 返回 一 1。 


execve 图 数 加 载 并 运行 可 执行 目标 文件 filename， 且 市 参数 列表 argv 和 环境 变量 
列表 envp。 只 有 当 出 现 错误 时 ， 例 如 找 不 到 filename，execve 才 会 返回 到 调用 程序 。 
所 以 ， 与 fork 一 次 调用 返回 两 次 不 同 ，execve 调用 一 次 并 从 不 返回 。 

参数 列表 是 用 图 8-20 中 的 数据 结构 表示 的 。argv 变量 指 问 一 个 以 null 结尾 的 指针 数 
组 ， 其 中 每 个 指针 都 指 回 一 个 参数 字符 串 。 按 照 惯 例 ，argv[0] 是 可 执行 目标 文件 的 名 
字 。 环 境 变量 的 列表 是 由 一 个 类 似 的 数据 结构 表示 的 ， 如 图 8-21 所 示 。envp 变量 指 疝 一 
个 以 null 结尾 的 指针 数组 ， 其 中 每 个 指针 指 疝 一 个 环境 变量 字符 串 ， 每 个 串 都 是 形 如 
“name=value” 的 名 字 - 值 对 。 
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eetoi | 
argv[1] 一 
下 一 七 村 


|"/user/include"| 





图 8-20 参数 列表 的 组 织 结构 
envp[] 

"PWD=/usr/droh" 
1 


| "USER=droh" | 
图 8-21 环境 变量 列表 的 组 织 结 构 


在 execve 加 载 了 filename 之 后 ， 它 调用 7. 9 市 中 描述 的 启动 代码 。 启 动 代码 设置 
栈 ， 并 将 控制 传递 给 新 程序 的 主 函 数 ， 该 主 困 数 有 如 下 形式 的 原型 


int main(int argc, char **argv, char **envp); 


或 者 等 价 的 


int main(int argc, char *argv[], char *envp[]); 


当 main 开始 执行 时 ， 用 户 栈 的 组 织 结构 如 图 8-22 所 示 。 让 我 们 从 栈 底 (高 地 址 ) 往 栈 顶 
(低地 址 ) 依 次 看 一 看 。 首 先是 参数 和 环境 字符 串 。 栈 往 上 紧 随 其 后 的 是 以 null 结尾 的 指针 
数组 ， 其 中 每 个 指针 都 指 和 呵 栈 中 的 一 个 环境 变量 字符 串 。 全 局 变量 environ 指向 这 些 指 
针 中 的 第 一 个 envp[0] 。 紧 随 环境 变量 数组 之 后 的 是 以 null 结尾 的 argv[ ] 数 组 ， 其 中 每 
个 元 素 都 指向 栈 中 的 一 个 参数 字符 串 。 在 栈 的 项 部 是 系统 启动 孙 数 1ibc_start_main( 见 
7.9 节 ) 的 栈 帧 。 





栈 底 
以 null 结 尾 的 环境 变量 字符 串 


: environ 
: (全 局 变量 ) 


. (在 淋 存 串 hrdx 中 ) 


(在 寄存 器 4rsi 中 )| | 


argc 
(在 寄存 器 $rdi 中 ) libc start main 的 栈 帧 i 


main 的 未 来 的 栈 帧 





图 822 一 个 新 程序 开始 时 ， 用 户 栈 的 典型 组 织 结构 
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main 困 数 有 3 个 参数 : 1)argc， 它 给 出 argv[ ] 数 组 中 非 空 指针 的 数量 ，2) argv， 
指向 argv[ ] 数 组 中 的 第 一 个 条 目 ，3)envp， 指 向 envp[] 数 组 中 的 第 一 个 条 目 。 
Linux 提供 了 几 个 也 数 来 操作 环境 数组 : 


#include <stdlib.h> 


char *getenv(const char *name); 
返回 ; 若 存 在 则 为 指向 name 的 指针 ， 若 无 匹配 的 ， 则 为 NULL。 





getenv 函数 在 环境 数组 中 搜索 字符 串 “name=value”。 如 果 找 到 了 ， 它 就 返回 一 个 
指 回 value 的 指针 ， 否 则 它 就 返回 NULL。 
#include <stdlib.h> 


int setenv(const char *name, const char *newvalue, int overwrite); 
返回 : 落成 功 则 为 0， 若 错误 则 为 一 1。 


void unsetenv(const char *name).; 


返回 ; 无 。 





如 果 环 境 数 组 包含 一 个 形 如 “name=oldvalue” 的 字符 串 ， 那 么 unsetenv 会 删除 
它 ， 而 setenv 会 用 newvalue 代替 oldvalue， 但 是 只 有 在 overwirte 非 零 时 才 会 这 样 。 
如 果 name 不 存在 ， 那 么 setenv 就 把 “name=newvalue” 添 加 到 数组 中 。 


EE 程序 与 进程 

这 是 一 个 适当 的 地 方 ， 停 下 来 ， 确 认 一 下 你 理解 了 程序 和 进程 之 间 的 区 别 。 程 序 是 
一 堆 代 码 和 数据 ; 程序 可 以 作为 目标 文件 存在 于 磁盘 上 ， 或 者 作为 段 存 在 于 地 址 空间 
中 。 进 程 是 执行 中 程序 的 一 个 具体 的 实例 ; 程序 总 是 运行 在 某 个 进程 的 上 下 文中 。 如 果 
你 想 要 理解 fork 和 execve 函数 ， 理 解 这 个 差异 是 很 重要 的 。fork 函数 在 新 的 子 进程 
中 运行 相同 的 程序 ， 新 的 子 进 程 是 父 进程 的 一 个 复制 品 。execve 函数 在 当前 进程 的 上 
下 文中 加 载 并 运行 一 个 新 的 程序 。 它 会 履 盖 当前 进程 的 地 址 空间 ， 但 并 没有 创建 一 个 新 
进程 。 新 的 程序 仍然 有 相同 的 PID， 并 且 继 承 了 调用 execve 函数 时 已 打开 的 所 有 文件 
描述 符 。 


二 练习 题 8.6 编写 一 个 叫做 myecho 的 程序 ， 打印 出 它 的 命令 行 参数 和 环境 变量 。 
例如 : 


linux> ./myecho argl arg2 
Command-ine arguments : 
argv[ 0] : myecho 
argv[ 1] : argi 
argv[ 2] : arg2 
Environment Variables : 
envp[ 0]: PWD=/usr0O/droh/ics/code/ecf 
envp[ 1]: TERM=emacs 


envp[25]: USER=droh 
envp[26]: SHELL=/usr/local/bin/tcsh 
enVp [27] : HOME=/usr0/droh 


8.4.6 利用 fork 和 execve 运行 程序 


像 Unix shell 和 Web 服务 器 这 样 的 程序 大 量 使 用 了 fork 和 execve 图 数 。shell 是 一 
个 交互 型 的 应 用 级 程序 ， 它 代表 用 户 运 行 其 他 程序 。 最 早 的 shell 是 sh 程序 ， 后 面 出 现 了 
一 些 恋 种 ， 比 如 csh、tcsh、ksh 和 bash。shell 执行 一 系列 的 读 / 求 值 (read/evaluate) 步 
又 ， 然 后 终止 。 读 步骤 读 取 来 自用 户 的 一 个 命令 行 。 求 值 步骤 解析 命令 行 ， 并 代表 用 户 运 
行程 序 。 

图 8-23 展示 了 一 个 简单 shell 的 main 例 程 。shell 打印 一 个 命令 行 提示 符 ， 等 每 用 户 
在 stdin 上 输入 命令 行 ， 然 后 对 这 个 命令 行 求 值 。 


code/ecf/shellex.c 
] #include "csapp.h" 
2 #define MAXARGS 128 
3 
4  /* Function prototypes */ 
5 void eval(char *cmdline); 
6 int parseline(char *buf, char **argV); 
7 int builtin_command(char **argV); 
8 
9 int main() 
10 { 
11 char cmdline [MAXLINE] ; /* Command line */ 
12 
13 while (1) { 
14 /* Read */ 
15 Deinte("> »); 
16 Fgets(cmdline, MAXLINE, stdin); 
17 if (feof (stdin)) 
18 exit(0): 
19 
20 /* Evaluate */ 
| eval (cmdline); 
22 } 
23 } 
code/ecH/shellex.c 


图 8-23 一 个 简单 的 shell 程序 的 main 例 程 


图 8-24 展示 了 对 命令 行 求 值 的 代码 。 它 的 首要 任务 是 调用 parseline 图 数 ( 见 图 8-25)， 
这 个 函数 解析 了 以 空格 分 隔 的 命令 行 参 数 ， 并 构造 最 终 会 传递 给 execve 的 argv 回 量 。 
第 一 个 参数 被 假设 为 要 么 是 一 个 内 置 的 shell 命令 名 ， 马 上 就 会 解释 这 个 命令 ， 要 么 是 一 
个 可 执行 目标 文件 ， 会 在 一 个 新 的 子 进 程 的 上 下 文中 加 载 并 运行 这 个 文件 。 

如 果 最 后 一 个 参数 是 一 个 “ 尺 ” 字 符 ， 那么 parseline 返回 1， 表 示 应 该 在 后 台 执 行 
该 程序 (shell 不 会 等 待 它 完 成 )。 否 则 ， 它 返回 0， 表 示 应 该 在 前 名 执行 这 个 程序 (shell 会 
等 待 它 完成 )。 

在 解析 了 命令 行 之 后 ，eval 函数 调用 builtin command 函数 ， 该 函数 检查 第 一 个 命 
令 行 参数 是 否 是 一 个 内 置 的 shell 命令 。 如 果 是 ， 它 就 立即 解释 这 个 命令 ， 并 返回 值 1。 否 
则 返回 0。 简 单 的 shell 只 有 一 个 内 置 命令 quit 命令 ， 该 命令 会 终止 shell。 实 际 使 用 
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的 shell 有 大 量 的 命令 ， 比 如 pwd、jobs 和 fg。 

如 果 builtin command 返回 0， 那么 shell 创建 一 个 子 进程 ， 并 在 子 进程 中 执行 所 请 求 
的 程序 。 如 果 用 户 要 求 在 后 台 运 行 该 程序 ， 那 么 shell 返回 到 循环 的 顶部 ， 等 待 下 一 个 命令 
行 。 否 则 ，shell 使 用 waitpiad 函数 等 待 作业 终止 。 当 作业 终止 时 ，shell 就 开始 下 一 轮 迭 代 。 


tw NN OO WW NN 一 


Wj hh hj hj mm 思 o 
人 bf 一 SO WO oo NO Nn 有 WW NN 一 OO 襄 


code/ecf/shellex.c 


/* eval - Evaluate a command line */ 
void eval(char *cmdline) 


{ 
char *argv [MAXARGS]; /* Argument list execve() */ 
char buf [MAXLINE]; /* Holds modified command line */ 
int bg; /* Should the job run in bg or fg? */ 
Pia 七 pid; /* Process id */ 
strcpy (buf , cmdline); 
bg = parseline(buf, argv); 
if (argv[0] == NULL) 
return; /* Ignore empty lines */ 
if (lbuiltin_command(argv)) { 
if ((pid = Fork()) == 0) { /* Child runs user job */ 
if (execve(argv[0], argv, environ) < 0) 二 
printf("%s: Command not found.\n", argv[0]):; 
exit (0):; 
} 
} 
/* Parent waits for foreground job to terminate */ 
i 《TD < 
int status; 
if (waitpid(pid, &status, 0) < 0) 
unix_error('"waitfg: waitpid error'"); 
} 
else 
printf("%d %s", pid, cmdline); 
} 
return, 
于 


/* If first arg is a builtin command, run it and return true */ 
int builtin_command(char **argv) 


{ 
if (!strcmp(argv[0], "guit")) /* quit command */ 
exit (0); 
if (Istrcmp(argv[0], "&")) /* Ignore singleton & */ 
return 1; 
return 0; /* Not a builtin command */ 
} 


code/ect/shellex.c 
色 8-21 eval 对 shell 命令 行 求 值 
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code/ecf/shellex.c 


/* parseline - Parse the command line and build the argv array */ 


, 
2 int parseline(char *buf, char **argv) 

3 元 

4 char *delim; /* Points to first space delimiter */ 
5 int argc; /* Number of args */ 

6 int beg; /* Background job? */ 

7 

8 buf [strlen(buf)-1] = ' '; /* Replace trailing '\n' with space */ 
9 While (*buf && (*buf == ' ')) /* Ignore leading spaces */ 
10 buf++; 

11 

12 /* Build the argV list */ 

13 argc = 03 

14 while ((delim = strchr(buf, ' '))) { 

15 argvlargc++] = buf; 

16 *delim = '\0'; 

17 buf = delim + 1; 

18 while (*buf && (*buf == ' ')) /* Ignore spaces */ 

19 buf++; 

20 二 

21 argvlargc] = NULL ; 

22 

23 if (argc == 0) /* Ignore blank line */ 

24 return 1; 

25 

26 /* Should the job run in the background? */ 

27 if ((bg = (*argv[largc-1] == '&')) != 0) 

28 argv[--argc] = NULL; 

29 

30 return bg; 

31 小 


code/ec1jyjeliex.c 
对 8-25 parseline 解析 shell 的 一 个 输入 行 


注意 ， 这 个 简单 的 shell 是 有 缺陷 的 ， 因 为 它 并 不 回收 它 的 后 台子 进程 。 修 改 这 个 缺 
陷 就 要 求 使 用 信号 ， 我 们 将 在 下 一 节 中 讲述 信和 号。 
8.5 信号 

到 目前 为 止 对 异常 控制 流 的 学 习 中 ， 我们 已 经 看 到 了 硬件 和 软件 是 如 何 合作 以 提供 基 
本 的 低层 异常 机 制 的 。 我 们 也 看 到 了 操作 系统 如 何 利 用 异常 来 支持 进程 上 下 文 切 换 的 异常 
控制 流 形式 。 在 本 节 中 ， 我 们 将 研究 一 种 更 高 层 的 软件 形式 的 异常 ， 称 为 Linux 信号 ， 它 
允许 进程 和 内 核 中 断 其 他 进程 。 

一 个 信号 就 是 一 条 小 消息 ， 它 通知 进程 系统 中 发 生 了 一 个 某 种 类 型 的 事件 。 比 如 ， 图 8-26 
展示 了 Linux 系统 上 支持 的 30 种 不 同类 型 的 信号 。 

每 种 信号 类 型 都 对 应 于 某 种 系统 事件 。 低 层 的 硬件 异常 是 由 内 核 异常 处 理 程序 处 理 的 ， 正 
稼 情况 下 ， 对 用 户 进 程 而 言 是 不 可 见 的 。 信 和 号 提供 了 一 种 机 制 ， 通 知 用 户 进程 发 生 了 这 些 异 常 。 
比如 ， 如 果 一 个 进程 试图 除 以 0， 那 么 内 核 就 发 送 给 它 一 个 SIGFPE 信号 (号 码 8) 。 如 果 一 个 进 
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程 执行 一 条 非法 指令 ， 那么 内 核 就 发 送 给 它 一 个 SIGILL 信号 (号 码 4)。 如 果 进 程 进行 非法 内 存 
引用 ， 内 核 就 发 送 给 它 一 个 SIGSEGYV 信号 (号 码 11)。 其 他 信号 对 应 于 内 核 或 者 其 他 用 户 进 程 
中 较 高 层 的 软件 事件 。 比 如 ， 如 果 当 进程 在 前 台 运 行 时 ， 你 键入 Ctrl 十 C( 也 就 是 同时 按 下 Ctrl 
键 和 C 键 )， 那 么 内 核 就 会 发 送 一 个 SIGINT 信和 号 (号 码 2) 给 这 个 前 台 进 程 组 中 的 每 个 进程 。 一 
个 进程 可 以 通过 向 另 一 个 进程 发 送 一 个 SIGKILL 信和 号 (号 码 9) 强 制 终 止 它 。 当 一 个 子 进程 终止 
或 者 停止 时 ， 内 核 会 发 送 一 个 SIGCHLD 信和 号 (号 码 17) 给 父 进程 。 


SIGHUP 
SIGINT 
SIGQUIT 
SIGILL 
SIGTRAP 
SIGABRT 
SIGBUS 
SIGFPE 
SIGKILL 
SIGUSR!1 
SIGSEGV 
SIGUSR2 
SIGPIPE 
SIGALRM 
SIGTERM 


终止 并 转 储 内 存 
终止 并 转 储 内 存 
终止 

终止 并 转 储 内 存 ” 
终止 2 

终止 
终止 并 转 储 内 存 


来 自 键盘 的 中 断 

来 自 键盘 的 退出 

非法 指令 

跟踪 陷阱 

来 自 abort 函数 的 终止 信号 
总 线 错误 

浮 点 异常 

杀 死 程序 

用 户 定义 的 信号 1 

无 效 的 内 存 引 用 (有 段 故障 ) 

用 户 定义 的 信号 2 

向 一 个 没有 读 用 户 的 管道 做 写 操作 
来 自 alarm 函数 的 定时 器 信和 号 
软件 终止 信号 


SIGSTKFLT 

SIGCHLD 

SIGCONT 忽略 

SIGSTOP 停止 直到 下 一 个 SIGCONT” 
SIGTSTP 停止 直到 下 一 个 SIGCONT 
SIGTTIN 停止 直到 下 一 个 SIGCONT 
SIGTTOU 停止 直到 下 一 个 SIGCONT 
SIGURG 忽略 

SIGXCPU 终止 

SIGXFSZ 终止 

SIGVTALRM 终止 

SIGPROF 终止 

SIGWINCH 忽略 

SIGIO 终止 

SIGPWR 终止 


协 处 理 器 上 的 栈 故障 

一 个 子 进程 停止 或 者 终止 
继续 进程 如 果 该 进程 停止 
不 是 来 自 终 端的 停止 信号 
来 自 终端 的 停止 信号 

后 台 进 程 从 终端 读 

后 台 进 程 向 终端 写 

套 接 字 上 的 紧急 情况 
CPU 时 间 限 制 超出 
文件 大 小 限制 超出 
虚拟 定时 器 期 满 

剖析 定时 器 期 满 

窗口 大 小 变化 

在 某 个 描述 符 上 可 执行 IO 操作 
电源 故障 





| 名 8-256 Linux 信号 
注 ; 四 多 年 前 ， 主 存 是 用 一 种 称 为 磁 芯 存储 器 (core memory) 的 技术 来 实现 的 。" 转 储 内 存 ”(dumping core) 是 一 
个 历史 术语 ， 意思 是 把 代码 和 数据 内 存 段 的 映像 写 到 磁盘 上 。 
加 这 个 信号 既 不 能 被 捕获 ， 也 不 能 被 忽略 。 
(来 源 : man 7 signal。 数 据 来 自 Linux Foundation 。) 


8.5. 1 入 号 末 语 
传送 一 个 信号 到 目的 进程 是 由 两 个 不 同步 又 组 成 的 : 
e@ 发 送信 号 。 内 核 通过 更 新 目的 进程 上 下 文中 的 某 个 状态 ， 发 送 (递送 ) 一 个 信号 给 目 
的 进程 。 发 送信 号 可 以 有 如 下 两 种 原因 : 1) 内 核 检 测 到 一 个 系统 事件 ， 比 如 除 零 错 
误 或 者 子 进程 终止 。2) 一 个 进程 调用 了 kill 函数 (在 下 一 节 中 讨论 ) ， 显 式 地 要 求 
内 核发 送 一 个 信号 给 目的 进程 。 一 个 进程 可 以 发 送信 号 给 它 自 己 。 
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@ 接收 信号 。 当 目的 进程 被 内 核 强迫 以 某 种 方式 对 信号 的 发 送 做 出 反应 时 ， 它 就 接收 了 
信和 号。 进程 可 以 忽略 这 个 信号 ， 终 止 或 者 通过 执行 一 个 称 为 信号 处 理 程序 (signal han- 
dler) 的 用 户 层 函 数 捕获 这 个 信号 。 图 8-27 给 出 了 信和 号 处 理 程序 捕获 信号 的 基本 思想 。 








(2 ) 控制 传递 到 
(1 ) 进程 接 信号 处 理 程序 


I CUIT 
收 到 信号 J 





(4) 信号 处 理 程序 
返回 到 下 一 条 指令 


图 827 信号 处 理 。 接 收 到 信号 会 触发 控制 转移 到 信号 处 理 程序 。 在 信号 处 理 程序 
完成 处 理 之 后 ， 它 将 控制 返回 给 被 中 断 的 程序 


一 个 发 出 而 没有 被 接收 的 信号 叫做 待 处 理 信 号 (pending signal) 。 在 任何 时 刻 ， 一 种 类 
型 至 多 只 会 有 一 个 待 处 理 信 号 。 如 果 一 个 进程 有 一 个 类 型 为 不 的 待 处理 信 号 ， 那 么 任何 接 
下 来 发 送 到 这 个 进程 的 类 型 为 & 的 信号 都 不 会 排队 等 待 ; 它们 只 是 被 简单 地 丢弃 。 一 个 进 
程 可 以 有 选择 性 地 阻塞 接收 某 种 信号 。 当 一 种 信号 被 阻塞 时 ， 它 仍 可 以 被 发 送 ， 但 是 产生 
的 待 处 理 信号 不 会 被 接收 ， 直 到 进程 取消 对 这 种 信号 的 阻塞 。 

一 个 待 处 理 信号 最 多 只 能 被 接收 一 次 。 内 核 为 每 个 进程 在 pending 位 向 量 中 维护 着 
待 处 理 信号 的 集合 ， 而 在 blocked 位 向 量 中 维护 着 被 阻塞 的 信号 集合 。 只 要 传送 了 一 
类 型 为 & 的 信和 号， 内核 就 会 设置 pending 中 的 第 位， 而 只 要 接收 了 一 个 类 型 为 的 信 
号 ， 内 核 就 会 清除 pending 中 的 第 上 位。 


Unix 系统 提供 了 大 量 向 进程 发 送信 号 的 机 制 。 所 有 这 些 机 制 都 是 基于 进程 组 (Process 
group) 这 个 概念 的 。 

1. 进程 组 

每 个 进程 都 只 属于 一 个 进程 组 ， 进 程 组 是 由 一 个 正 整 数 进 程 组 ID 来 标识 的 。getpgrp 
图 数 返 回 当前 进程 的 进程 组 ID， 


#include <unistd.h> 


pid_t getpgrp(void); 
返回 : 调用 进程 的 进程 组 ID。 





默认 地 ， 一 个 子 进程 和 它 的 父 进程 同属 于 一 个 进程 组 。 一 个 进程 可 以 通过 使 用 set- 
pgid 函数 来 改变 上 自己 或 者 其 他 进程 的 进程 组 : 


#include <unistd.h> 


int setpgid(pid_t pid, pid_t pgid); 


返回 : 落成 功 则 为 0， 车 错误 则 为 一 1。 





setpgid 函数 将 进程 pid 的 进程 组 改 为 pgid。 如 果 pid 是 0， 那 么 就 使 用 当前 进程 


加 也 称 为 信号 掩 码 (signal mask) 。 
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的 PID。 如 果 pgid 是 0， 那么 就 用 pid 指定 的 进程 的 PID 作为 进程 组 ID。 人 例如， 如 果 进 
程 15213 是 调用 进程 ,那么 
setpgid(0, 0); 


会 创建 一 个 新 的 进程 组 ， 其 进程 组 ID 是 15213， 并 且 把 进程 15213 加 入 到 这 个 新 的 进程 
组 中 。 

2. 用 /bin/kill 程序 发 送信 号 

/bin/kill 程序 可 以 向 另外 的 进程 发 送 任意 的 信号 。 比 如 ， 命 令 


linux> /bin/kill -9 15213 


发 送信 号 9(SIGKILL) 给 进程 15213。 一 个 为 负 的 PID 会 导致 信号 被 发 送 到 进程 组 PID 中 
的 每 个 进程 。 比 如 ， 命 令 
linux> /bin/kill -9 -15213 


发 送 一 个 SIGKILL 信号 给 进程 组 15213 中 的 每 个 进程 。 注 意 ， 在 此 我 们 使 用 完整 路 径 / 
bin/kil1， 因 为 有 些 Unix shell 有 自己 内 置 的 kill 命令 。 

3. 从 键盘 发 送信 号 

Unix shell 使 用 作业 (job) 这 个 抽象 概念 来 表示 为 对 一 条 命令 行 求 值 而 创建 的 进程 。 在 
任何 时 刻 ， 至 多 只 有 一 个 前 台 作 业 和 0 个 或 多 个 后 台 作 业 。 比 如 ， 键 和 


linux> Is | sort 


会 创建 一 个 由 两 个 进程 组 成 的 前 台 作 业 ， 这 两 个 进程 是 通过 Unix 管道 连接 起 来 的 : 一 个 
进程 运行 1s 程序 ， 另 一 个 运行 sort 程序 。shell 为 每 个 作业 创建 一 个 独立 的 进程 组 。 进 程 
组 ID 通常 取 自 作业 中 父 进程 中 的 一 个 。 比 如 ， 图 8-28 展示 了 有 一 个 前 台 作 业 和 两 个 后 台 
作业 的 shell。 前 台 作 业 中 的 父 进程 PID 为 20， 进 程 组 ID 也 为 20。 父 进程 创建 两 个 子 进 
程 ， 每 个 也 都 是 进程 组 20 的 成 员 。 





pid=21 pid=22 ; 
pgid=20 pgid=20 | 


ee ee 0 te 0 ee 0 te ee td 


前 台 进 程 组 20 


前 台 和 后 台 进 程 组 
在 键盘 上 输入 Ctrl 十 C 会 导致 内 核发 送 一 个 SIGINT 信号 到 前 台 进 程 组 中 的 每 个 进 
程 。 默 认 情 况 下 ， 结 果 是 终止 前 台 作 业 。 类 似 地 ， 输 入 Ctrl 十 Z 会 发 送 一 个 SIGTSTP 信 
号 到 前 台 进 程 组 中 的 每 个 进程 。 上 默认 情况 下 ， 结 果 是 停止 ( 挂 起 ) 前 台 作 业 。 
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4. 用 kil11 函数 发 送信 和 号 
进程 通过 调用 kill 图 数 发 送信 号 给 其 他 进程 (包括 它们 自己 )。 


#include <sys/types.h> 
#include <signal.h> 


int kill(pid tt pid, int Sig)s 


返回 : 若 成 功 则 为 0， 若 错误 则 为 一 1。 





如 果 pid 大 于 零 ， 那 么 kill 消 数 发 送信 号 号 码 sig 给 进程 pid。 如 果 pid 等 于 零 ， 那 么 
kill 发 送信 号 sig 给 调用 进程 所 在 进程 组 中 的 每 个 进程 包括 调用 进程 自己 。 如 果 pid 
小 于 零 ，kill 发 送信 号 sig 给 进程 组 |pid|(piad 的 绝对 值 ) 中 的 每 个 进程 。 图 8-29 展示 
了 一 个 示例 ， 父 进程 用 ki11 函数 发 送 SIGKILL 信号 给 它 的 子 进程 。 
code/ecf/kill.c 
#include "csapp.h" 


| 

2 

3 int main() 
4 

5 


{ 
pid_t Pid; 

6 
7 /* Child sleeps until SIGKILL signal received, then dies */ 
8 if ((pid = Fork()) == 0) +{ 
9 Pause(); /* Wait for a signal to arrive */ 
10 printf("control should never reach here!\n'"); 
11 exit (0); 
12 上 
13 
14 /* Parent sends a SIGKILL signal to a child */ 
15 Kill (pid, SIGKILL); 
16 exit(0); 
i7  } 


code/ecf/kill.c 
图 8-29 使 用 kill 函数 发 送信 号 给 子 进程 


5. 用 alarm 函数 发 送信 和 号 
进程 可 以 通过 调用 alarm 困 数 癌 它 目 己 发 送 SIGALRM 信和 号 。 


#include <unistd.h> 


unsigned int alarm(unsigned int secs); 
返回 : 前 一 次 闹钟 剩余 的 秒 数 ， 若 以 前 没有 设 定 疮 钟 ， 则 为 0。 





alarm 上 果 数 安排 内 核 在 secs 秒 后 发 送 一 个 SIGALRM 信号 给 调用 进程 。 如 果 secs 
是 稚 ， 那 么 不 会 调度 安排 新 的 阅 钟 (alarm)。 在 任何 情况 下 ， 对 alarm 的 调用 都 将 取消 任 
何 待 处 理 的 (pending) 疝 钟 ， 并 且 返 回 任何 待 处理 的 阅 钟 在 被 发 送 前 还 剩 下 的 秒 数 ( 如 果 这 
次 对 alarm 的 调用 没有 取消 它 的 话 ); 如 果 没 有 任何 待 处 理 的 闹钟 ， 就 返回 零 。 
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8. 5. 3 ”接收 信号 


当 内 核 把 进程 p 从 内 核 模式 切换 到 用 户 模式 时 (例如 ， 从 系统 调用 返回 或 是 完成 了 一 
次 上 下 文 切换 )， 它 会 检查 进程 p 的 未 被 阻塞 的 待 处 理 信 号 的 集合 (pending &~blocked) 。 
如 果 这 个 集合 为 空 (通常 情况 下 )， 那 么 内 核 将 控制 传递 到 p 的 人 逻辑 控制 流 中 的 下 一 条 指令 
(Js )。 然 而 ， 如 果 集 合 是 非 空 的 ， 那 么 内 核 选 择 集合 中 的 某 个 信号 有 (通常 是 最 小 的 &)， 
并 且 强 制 p 接收 信号 &。 收 到 这 个 信号 会 触发 进程 采取 某 种 行为 。 一 旦 进程 完成 了 这 个 行 
为 ， 那 么 控制 就 传递 回 p 的 逻辑 控制 流 中 的 下 一 条 指令 (Tu)。 每 个 信号 类 型 都 有 一 个 预 
定义 的 默认 行为 ， 是 下 面 中 的 一 种 : 

e 进程 终止 。 

e 进程 终止 并 转 储 内 存 。 

e 进程 停止 ( 挂 起 ) 直 到 被 SIGCONT 信和 号 重启 。 

e 进程 忽略 该 信号 。 

图 8-26 展示 了 与 每 个 信号 类 型 相关 联 的 默认 行为 。 比 如 ， 收 到 SIGKILL 的 默认 行为 
就 是 终止 接收 进程 。 另 外 ， 接 收 到 SIGCHLD 的 默认 行为 就 是 忽略 这 个 信号 。 进 程 可 以 通 
过 使 用 -signal 函数 修改 和 信号 相关 联 的 默认 行为 。 唯 一 的 例外 是 SIGSTOP 和 SIGKILL， 
它们 的 默认 行为 是 不 能 修改 的 。 


#include <signal.h> 
typedef void (*sighandler_t) (int) ; 


sighandler_t signal(int signum, sighandler_t handler) ; 
返回 : 车 成 功 则 为 指向 前 次 处 理 程序 的 指针 ， 若 出 错 则 为 SIG_ERR( 不 设置 errno) 。 





signal 图 数 可 以 通过 下 列 三 种 方法 之 一 来 改变 和 信和 号 signum 相关 联 的 行为 : 

@ 如 果 handler 是 SIG_IGN， 那 么 忽略 类 型 为 signum 的 信号 。 

e 如果 handler 是 SIG_DFL， 那 么 类 型 为 signum 的 信号 行为 恢复 为 默认 行为 。 

e 否则 ，hanqlez 就 是 用 户 定义 的 函数 的 地 址 ， 这 个 函数 被 称 为 信号 处 理 程序 ， 只 要 进 

程 接收 到 一 个 类 型 为 signum 的 信号 ， 就 会 调用 这 个 程序 。 通 过 把 处 理 程序 的 地 址 传 
递 到 signal 因数 从 而 改变 默认 行为 ， 这 叫做 设置 信号 处 理 程序 (installing the han- 
dler)。 调 用 信号 处 理 程 序 被 称 为 捕获 信号 。 执 行 信号 处 理 程序 被 称 为 处 理 信 号 。 

当 一 个 进程 捕获 了 一 个 类 型 为 的 信号 时 ,会 调用 为 信号 设置 的 处 理 程序 ， 一 个 整 
数 参 数 被 设置 为 上 &。 这 个 参数 允许 同一 个 处 理 函 数 捕获 不 同类 型 的 信号。 

当 处 理 程 序 执行 它 的 return 语句 时 ， 控 制 (通常 ) 传 递 回 控制 流 中 进程 被 信号 接收 中 
断 位 置 处 的 指令 。 我 们 说 “通常 ”是 因为 在 某 些 系 统 中 ,被 中 断 的 系统 调用 会 立即 返回 一 
个 错误 。 

图 8-30 展示 了 一 个 程序 ， 它 捕获 用 户 在 键盘 上 输入 Ctrl 十 C 时 发 送 的 SIGINT 信号 。 
SIGINT 的 默认 行为 是 立即 终止 该 进程 。 在 这 个 示例 中 ,我 们 将 默认 行为 修改 为 捕获 信 
号 ， 输 出 一 条 消息 ， 然 后 终止 该 进程 。 

信号 处 理 程 序 可 以 被 其 他 信号 处 理 程 序 中 断 ， 如 图 8-31 所 示 。 在 这 个 例子 中 ， 主 程 
序 捕获 到 信号 *， 该 信号 会 中 断 主 程序 ， 将 控制 转移 到 处 理 程序 S。S 在 运行 时 ， 程 序 捕 
获 信号 上 径 y， 该 信号 会 中 断 S， 控 制 转移 到 处 理 程序 TT。 当 全 返回 时 ，S 从 它 被 中 断 的 地 
方 继续 执行 。 最 后 ，S 返回 ， 控 制 传送 回 主 程序 ， 主 程序 从 它 被 中 断 的 地 方 继续 执行 。 
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code/ecH/sigint.c 
#include "csapp.h" 
3 void sigint_handler(int sig) /* SIGINT handler */ 
4 的 
5 printf("Caught SIGINT!\n"); 
1 exit(0); 
7 
9 int maint() 
10 和 
1] /* Install the SIGINT handler */ 
12 if (signal (SIGINT, sigint_handler) == SIG_ERR) 
13 unix_error("signal error'"); 
14 
15 pause(); /* Wait for the receipt of a signal */ 
16 
17 return 0; 
18 才 
code/ecHsigint.c 
本 930 一 个 用 信号 处 理 程序 捕获 SIGINT 信和 号 的 程序 
主 程序 处 理 程序 5 处 理 程序 7 


(2 ) 控制 信号 传递 
给 处 理 程 序 $ 







(1 ) 程序 捕获 信和 号 s 


CUIT 


(4) 控制 传递 给 处 理 程序 7 












(3 ) 程序 捕获 信号 t 


(7 ) 主 程序 继续 执行 人 = 


(5 ) 处 理 程序 7 返回 到 
(6 ) 处 理 程序 $ 返 回 到 主 程序 处 理 程序 $ 


言 写 处 理 程序 可 以 被 其 他 信号 处 理 程序 中 断 


练习 题 8. 7 编写 一 个 叫做 snooze 的 程序 ， 它 有 一 个 命令 行 参数 ， 用 这 个 参数 调用 
练习 题 8.5 中 的 snooze 函数 ， 然 后 终止 。 编 写 程 序 ， 使 得 用 户 可 以 通过 在 键盘 上 输 
入 Ctrl 十 C 中 断 snooze 函数 。 比 如 ， 

linux> ./snooze 5 

CTRL+C User Bits Crtl+C After 3 Secorids 

Slept for 3 of 5 secs. 

linux> 





8. 5. 4 ”阻塞 和 解除 阻塞 信号 


Linux 提供 阻塞 信号 的 隐 式 和 显 式 的 机 制 : 
隐 式 阻塞 机 制 。 内 核 默认 阻塞 任何 当前 处 理 程 序 正 在 处 理 信号 类 型 的 竺 处理 的 信号 。 


例如 ， 图 8-31 中 ， 假 设 程序 捕获 了 信号 *， 当 前 正在 运行 处 理 程序 S。 如 果 发 送 给 该 进程 
另 一 个 信号 s， 那 么 直到 处 理 程序 S 返回 ，s 会 变 成 待 处 理 而 没有 被 接收 。 


显 式 阻塞 机 制 。 应 用 程序 可 以 使 用 sigprocmask 图 数 和 它 的 辅助 郴 数 ， 明 确 地 阻塞 


和 解除 阻塞 选 定 的 信和 号 。 


第 8 划 异常 控制 流 533 


#include <signal.h> 


int sigprocmask(int how, const sigset_t *set, sigset_t *oldset); 
int sigemptyset(sigset_t *set); 

int sigfillset(sigset_t *set); 

int sigaddset(sigset_t *set, int signum); 

int sigdelset(sigset_t *set, int signum); 


返回 : 如 果 成 功 则 为 0， 若 出 错 则 为 一 1。 
int sigismember(const sigset_t *set, int signum); 
返回 : 若 signum 是 set 的 成 员 则 为 ]， 如果 不 是 则 为 0， 若 出 错 则 为 一 1。 


sigprocmask 国 数 改变 当前 阻塞 的 信号 集合 (8. 5. 1 节 中 描述 的 blocked 位 向 量 )。 具 
体 的 行为 依赖 于 how 的 值 : 

SIG_BLOCK: 把 set 中 的 信号 添加 到 blocked 中 (blocked=blocked | set) 。 

SIG_UNBLOCK:; 从 blocked 中 删除 set 中 的 信号 (blocked=blocked gset)。 

SIG SETMASK.: block=set。 

如 果 oldset 非 空 ， 那 么 blocked 位 向量 之 前 的 值 保存 在 oldset 中 。 

使 用 下 述 阴 数 对 set 信号 集合 进行 操作 sigemptyset 初始 化 set 为 空 集合 。sigfillset 
负数 把 每 个 信号 都 添加 到 set 中 。sigadqset 也 数 把 signum 添加 到 set，sigdelset 从 set 中 
删除 signum， 如 果 signum 是 set 的 成 员 ， 那 么 sigismember 返回 1， 否 则 返回 0。 

例如 ， 图 8-32 展示 了 如 何 用 sigprocmask 来 临时 阻塞 接收 SIGINT 信和 号。 


sigset_t mask, prev_mask; 


Sigemptyset (&mask); 
Sigaddset (&mask, SIGINT); 


/* Block SIGINT and save previous blocked set */ 
Sigprocmask (SIG_BLOCK, &mask, &prev_mask); 


// Code region that will not be interrupted by SIGINT 


/* Restore previous blocked set, unblocking SIGINT */ 
Sigprocmask (SIG_SETMASK, &prev_mask, NULL); 





图 5-32 临时 阻塞 接收 一 个 信和 号 
8.5.5 编写 信号 处 理 程序 


信号 处 理 是 Linux 系统 编程 最 棘手 的 一 个 问题 。 处 理 程序 有 几 个 属性 使 得 它们 很 难 推 
理 分 析 : 1) 处 理 程序 与 主 程序 并 发 运行 ， 共 享 同样 的 全 局 变量 ， 因 此 可 能 与 主 程序 和 其 他 
处 理 程序 互相 干扰 ;3 2) 如 何以 及 何 时 接收 信号 的 规则 常常 有 违 人 的 直觉 ; 3) 不同 的 系统 有 
不 同 的 信号 处 理 语义 。 

在 本 节 中 ， 我 们 将 讲述 这 些 问题 ,介绍 编写 安全 、 正 确 和 可 移植 的 信号 处 理 程序 的 一 
些 基 本 规则 。 

1. 安全 的 信号 处 理 

信号 处 理 程序 很 麻烦 是 因为 它们 和 主 程 序 以 及 其 他 信和 号 处 理 程序 并 发 地 运行 ， 正 如 我 
们 在 图 8-31 中 看 到 的 那样 。 如 果 处 理 程序 和 主 程 序 并 发 地 访问 同样 的 全 局 数据 结构 ， 那 
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么 结果 可 能 就 不 可 预知 ， 而 且 经 常 是 致命 的 。 

我 们 会 在 第 12 章 详细 讲述 并 发 编程 。 这 里 我 们 的 目标 是 给 你 一 些 保 守 的 编写 处 理 程 
序 的 原则 ， 使 得 这 些 处 理 程 序 能 安全 地 并 发 运行 。 如 果 你 忽视 这 些 原 则 ， 就 可 能 有 引入 细 
微 的 并 发 错误 的 风险 。 如 果 有 这 些 错 误 ， 程 序 可 能 在 绝 大 部 分 时 候 都 能 正确 工作 。 然 而 当 
它 出 错 的 时 候 ， 就 会 错 得 不 可 预测 和 不 可 重复 ， 这 样 是 很 难 调 试 的 。 一 定 要 防 患 于 未 然 ! 

@ G0. 处 理 程序 要 尽 可 能 简单 。 避 免 麻 烦 的 最 好 方法 是 保持 处 理 程 序 尽 可 能 小 和 简 

单 。 人 例如， 处理 程序 可 能 只 是 简单 地 设置 全 局 标志 并 立即 返回 ; 所 有 与 接收 信号 相 
关 的 处 理 都 由 主 程序 执行 ， 它 周期 性 地 检查 (并 重 置 ) 这 个 标志 。 

@ Gl1. 在 处 理 程序 中 只 调用 异步 信号 安全 的 函数 。 所 谓 异 步 信 号 安全 的 因数 (或 简称 安全 的 图 
数 ) 能 够 被 信号 处 理 程序 安全 地 调用 ， 原 因 有 二 : 要 么 它 是 可 重 入 的 (例如 只 访问 局 部 变量 ， 
见 12.7.2 他 )， 要 人 么 它 不 能 被 信号 处 理 程序 中 断 。 图 8-33 列 出 了 Linux 保证 安全 的 系统 级 
限 数 。 注 意 ， 许 多 常见 的 也 数 (例如 printf、sprintf、malloc 和 exit) 都 不 在 此 列 。 


Exit fexecve poll sigqueue 


_exit fork posix_trace_event sigset 


abort 
accept 
access 
aio_error 
aio_return 
aio_suspend 
alarm 

bind 
cfgetispeed 
cfgetospeed 
cfsetispeed 
cfsetospeed 
chdir 

chmod 

chown 


clock_gettime 


close 
connect 
creat 

dup 

dup2 
execl 
execle 
eXecV 
execve 
faccessat 
fchmod 
fchmodat 
fchown 
fchownat 
fcntl 
fdatasync 


fstat 
fstatat 
fsync 
ftruncate 
futimens 
getegid 
geteuid 
getgid 
getgroups 
getpeername 
getpgrp 
getpid 
Eetppid 
getsockname 
getsockopt 
getuid 
kill 

link 
linkat 
listen 
lseek 
lstat 
mkdir 
mkdirat 
mkfifo 
mkfifoat 
mknod 
mknodat 
open 
openat 
pause 


pipe 


pselect 
raise 
read 
readlink 
readlinkat 
recyv 
recvfrom 
recvmsg 
rename 
renameat 
rmdir 
select 
sem_post 
send 
sendmsg 
sendto 
setgid 
setpgid 
setsid 
setsockopt 
setuid 
shutdown 
sigaction 


sigaddset 


sigdelset 
sigemptyset 
sigfillset 
sigismember 
signal 
sigpause 
sigpending 
sigprocmask 


异步 信号 安全 的 肾 数 (来 源 : man 7 signal 


sigsuspend 
sleep 
sockatmark 
socket 
socketpair 
stat 
symlink 
symlinkat 
tcdrain 
tcflow 
tcflush 
tcgetattr 
tcgetpgrp 
tcsendbreak 
tcsetattr 
tcsetpgrp 
time 
timer_getoverrun 
timer_gettime 
timer_settime 
times 
umask 

uname 
unlink 
unlinkat 
utime 
utimensat 
utimes 

wait 
waitpid 
write 





。 数 据 米 自 Linux Foundation) 
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信号 处 理 程序 中 产生 输出 唯一 安全 的 方法 是 使 用 write 肾 数 ( 见 10. 1 节 )。 特 别 地 ， 
调用 printf 或 sprintf 是 不 安全 的 。 为 了 绕 开 这 个 不 幸 的 限制 ， 我 们 开发 一 些 安 全 的 艺 
数 ， 称 为 SIO( 安 全 的 I/O) 包 ， 可 以 用 来 在 信号 处 理 程序 中 打印 简单 的 消息 。 


#include "csapp.h" 


ssize_t sio_putl(long T) ; 
ssize_t sio_puts(char s[]); 


返回 : 如 果 成 功 则 为 传送 的 字 节 数 ， 如 果 出 错 ， 则 为 一 1。 
void sio_error(char s[]): 
返回 : 空 。 





sio putl 和 sio_puts 因数 分 别 向 标准 输出 传送 一 个 long 类 型 数 和 一 个 字符 串 。 
sio_error 函数 打印 一 条 错误 消息 并 终止 。 

图 8-34 给 出 的 是 SIO 包 的 实现 ， 它 使 用 了 csapp.c 中 两 个 私有 的 可 重 人 图 数 。 第 3 
行 的 sio_strlen 函数 返回 字符 串 s 的 长 度 。 第 10 行 的 sio_ltoa 图 数 基于 来 自 L61 的 
itoa 函数 ， 把 转换 成 它 的 基 b 字符 串 表 示 ， 保 存在 s 中 。 第 17 行 的 _exit 函数 是 exit 
的 一 个 异步 信号 安全 的 变种 。 


code/src/csapp.c 
1 ssize_t sio_puts(char s[]) /* Put string */ 
2 末 
3 return write(STDOUT_FILENO, s, sio_strlen(s)); 
4 } 
5 
6 ssize_t sio_putl(long V) /* Put long */ 
和 或 
8 char s[128]; 
9 
10 sio_ltoa(v, s, 10); /* Based on K&R itoa() */ 
11 return sio_puts(s); 
12 3} 
13 
14 void sio_error(char s[]) /* Put error message and exit */ 
15 直 
16 sio_puts(s); 
17 _exit(1); 
18 。 】 
code/src/csapp.c 
加 8-34 信和 号 处 理 程序 的 SIO( 安 全 1/0) 包 
图 8-35 给 出 了 图 8-30 中 SIGINT 处 理 程序 的 一 个 安全 的 版 本 。 
CO code/ecf/sigintsafe.c 
1 #include "csapp.h" 
2 
3 void sigint_handler(int sig) /* Safe SIGINT handler */ 
1 攻 
5 Sio_puts("Caught SIGINT!I\n"); /* Safe output */ 
6 _exit (0); /* Safe exit */ 
7 
code/ecf/sigintsafe.c 


图 585-35 ”图 8-30 的 SIGINT 处 理 程序 的 一 个 安全 版 本 


536 第 二 部 分 在 系统 上 运行 程序 


@ G2. 保存 和 恢复 errno。 许 多 Linux 异步 信号 安全 的 函数 都 会 在 出 错 返 回 时 设置 
errno。 在 处 理 程序 中 调用 这 样 的 函数 可 能 会 干扰 主 程序 中 其 他 依赖 于 errno 的 部 
分 。 解 决 方法 是 在 进入 处 理 程序 时 把 errno 保存 在 一 个 局 部 变量 中 ， 在 处 理 程序 返 
回 前 恢复 它 。 注 意 ， 只 有 在 处 理 程序 要 返回 时 才 有 此 必要 。 如 果 处 理 程 序 调 用 
_exit 终 止 该 进程 ， 那 么 就 不 需要 这 样 做 了 。 

G3. 阻塞 所 有 的 信号 ， 保护 对 共享 全 局 数据 结构 的 访问 。 如 果 处 理 程序 和 主 程序 或 其 

他 处 理 程 序 共 享 一 个 全 局 数据 结构 ， 那 么 在 访问 ( 读 或 者 写 ) 该 数据 结构 时 ， 你 的 处 理 

程序 和 主 程序 应 该 暂时 阻塞 所 有 的 信号 。 这 条 规则 的 原因 是 从 主 程序 访问 一 个 数据 结 

构 d 通常 需要 一 系列 的 指令 ， 如 果 指 令 序 列 被 访问 & 的 处 理 程序 中 断 ， 那 么 处 理 程序 

可 能 会 发 现 d 的 状态 不 一 致 ， 得 到 不 可 预知 的 结果 。 在 访问 4 时 暂时 阻塞 信号 保证 了 

处 理 程序 不 会 中 断 该 指令 序列 。 

@ G4. 用 volatile 声明 全 局 变量 。 考 虑 一 个 处 理 程序 和 一 个 main 六 数 ， 它 们 共享 一 个 全 
局 变量 g。 处 理 程序 更 新 g，main 周期 性 地 读 g。 对 于 一 个 优化 编译 器 而 言 ，main 中 g 
的 值 看 上 去 从 来 没有 变化 过 ， 因 此 使 用 缓存 在 寄存 器 中 g 的 副本 来 满足 对 g 的 每 次 引用 
是 很 安全 的 。 如 果 这 样 ，main 函数 可 能 永远 都 无 法 看 到 处 理 程序 更 新 过 的 值 。 

可 以 用 volatile 类 型 限定 符 来 定义 一 个 变量 ， 告 诉 编译 器 不 要 缓存 这 个 变量 。 例 如 ; 


volatile int g; 


volatile 限定 符 强 迫 编 译 紫 每 次 在 代码 中 引用 g 时 ， 都 要 从 内 存 中 读 取 9g 的 
值 。 一 般 来 说 ， 和 其 他 所 有 共享 数据 结构 一 样 ， 应 该 暂时 阻塞 信和 号， 保护 每 次 对 全 
局 变量 的 访问 。 

e G5. 用 sig atomic 七 声明 标志 。 在 和 常见 的 处 理 程序 设计 中 ， 处 理 程序 会 写 全 局 标 
志 来 记录 收 到 了 信号 。 主 程序 周期 性 地 读 这 个 标志 ， 响 应 信号 ， 再 清除 该 标志 。 对 
于 通过 这 种 方式 来 共享 的 标志 ，C 提供 一 种 整 型 数据 类 型 sig atomic t， 对 它 的 
读 和 写 保 证 会 是 原子 的 (不 可 中 断 的 )， 因 为 可 以 用 一 条 指令 来 实现 它们 : 


volatile sig_atomic_t flag; 


因为 它们 是 不 可 中 断 的 ， 所 以 可 以 安全 地 读 和 写 sig atomic 七 变量 ， 而 不 需 
要 暂时 阻塞 信和 号。 注意 ， 这 里 对 原子 性 的 保证 只 适用 于 单个 的 读 和 写 ， 不 适用 于 像 
flag++ 或 flag=flag+10 这 样 的 更 新 ， 它 们 可 能 需要 多 条 指令 。 

要 记 住 我 们 这 里 讲述 的 规则 是 保守 的 ， 也 就 是 说 它们 不 总 是 严格 必需 的 。 例 如 ， 如 果 
你 知道 处 理 程序 绝对 不 会 修改 errno， 那 么 就 不 需要 保存 和 恢复 errno。 或 者 如 果 你 可 以 
证 明 printf 的 实例 都 不 会 被 处 理 程序 中 断 ， 那 么 在 处 理 程序 中 调用 记 EE 二 EE 就 是 安全 的 。 
对 共享 全 局 数据 结构 的 访问 也 是 同样 。 不 过 ， 一般 来 说 这 种 断言 很 难 证 明 。 所 以 我 们 建议 
你 采用 保守 的 方法 ， 遵 循 这 些 规 则 ， 使 得 处 理 程序 尽 可 能 简单 ， 调 用 安全 函数 ,保存 和 恢 
复 errno， 保护 对 共享 数据 结构 的 访问 ， 并 使 用 volatile 和 sig atomic 七 

2. 正确 的 信号 处 理 

信号 的 一 个 与 直觉 不 符 的 方面 是 未 处 理 的 信号 是 不 排队 的 。 因 为 pending 位 向 量 中 
每 种 类 型 的 信号 只 对 应 有 一 位 ， 所 以 每 种 类 型 最 多 只 能 有 一 个 未 处 理 的 信号 。 因 此 ， 如 果 
两 个 类 型 的 信号 发 送 给 一 个 目的 进程 ， 而 因为 目的 进程 当前 正在 执行 信号 & 的 处 理 程 
序 ， 所 以 信号 & 被 阻塞 了 ， 那 么 第 二 个 信和 号 就 简单 地 被 丢弃 了 ;， 它 不 会 排队 。 关 键 思 想 是 
如 果 存 在 一 个 未 处 理 的 信号 就 表明 至 少 有 一 个 信号 到 达 了 。 


要 了 解 这 样 会 如 何 影 响 正 确 性 ,来 看 一 个 简单 的 应 用 ， 它 本 质 上 类 似 于 像 shell 和 
Web 服务 器 这 样 的 真实 程序 。 基 本 的 结构 是 父 进程 创建 一 些 子 进程 ， 这 些 子 进程 各 自 独 立 
运行 一 段 时 间 ， 然 后 终止 。 父 进程 必须 回收 子 进程 以 避免 在 系统 中 留 下 伪 死 进程 。 但 是 我 
们 还 希望 父 进程 能 够 在 子 进程 运行 时 自由 地 去 做 其 他 的 工作 。 所 以 ,我 们 决定 用 
SIGCHLD 处 理 程 序 来 回收 子 进程 ， 而 不 是 显 式 地 等 待 子 进程 终止 。( 回 想 一 下 ， 只 要 有 
一 个 子 进程 终止 或 者 停止 ， 内 核 就 会 发 送 一 个 SIGCHLD 信和 号 给 父 进 程 。) 

8-36 展示 了 我 们 的 初次 尝试 。 父 进程 设置 了 一 个 SIGCHLD 处 理 程 序 ， 然 后 创建 


code/ectsignall.c 
| /* WARNING: This code is buggy! */ 


void handlerl(int sig) 


4 { 

5 int olderrno = errno; 

D 

7 if ((waitpid(-1, NULL, 0)) < 0) 
sio_error("waitpid error'"); 

9 Sio_puts("Handler reaped child\n"); 

10 Sleep(1) ; 

11 errno = olderrno; 

12 } 

14 int main() 

15 { 

16 1D 1 瑟 5 

17 char buf [MAXBUF] ; 

18 

19 if (signal(SIGCHLD, handler1) == SIG_ERR) 
20 unix_error("signal error"); 

21 

22 /* Parent creates children */ 

23 for (i = 0 4 Be: iF) 

24 if (Fork() == 0) { 

25 printf("Hello from child %hd\n", (int)getpid()); 
26 exit(0); 

27 } 

28 } 

29 

30 /* Parent waits for terminal input and then processes it */ 
31 if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
32 Unix error('read"): 

33 

34 printf("Parent processing inputNn") ; 

35 while (1) 

37 

38 exit(0); 

39 } 


code/ecf/signall.c 
signall: 这 个 程序 是 有 缺陷 的 ， 因 为 它 假 设 信 号 是 排队 的 
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了 3 个 子 进程 。 同 时 ， 父 进程 等 待 来 自 终 端的 一 个 输入 行 ， 随 后 处 理 它 。 这 个 处 理 被 模型 
化 为 一 个 无 限 循 环 。 当 每 个 子 进程 终止 时 ， 内 核 通过 发 送 一 个 SIGCHLD 信号 通知 父 进 
程 。 父 进程 捕获 这 个 SIGCHLD 信和 号， 回收 一 个 子 进程 ， 做 一 些 其 他 的 清理 工作 (模型 化 
为 sleep 语句 )， 然 后 返回 。 

图 8-36 中 的 signall 程序 看 起 来 相当 简单 。 然 而 ， 当 在 Linux 系统 上 运行 它 时 ,我 
们 得 到 如 下 输出 : 

linux> ./signall 

Hello from child 14073 

Hello from child 14074 

Hello from child 14075 

Handler reaped child 

Handler reaped child 

CR 

Parent processing input 


从 输出 中 我 们 注意 到 ， 尽 管 发 送 了 3 个 SIGCHLD 信号 给 父 进程 ， 但 是 其 中 只 有 两 个 信和 号 被 
接收 了 ， 因 此 父 进程 只 是 回收 了 两 个 子 进程 。 如 果 挂 起 父 进 程 ， 我 们 看 到 ， 实 际 上 子 进 程 
14075 没有 被 回收 ， 它 成 了 一 个 僵 死 进程 (在 ps 命令 的 输出 中 由 字符 串 “defunct” 表 明 ): 


CtITJIA+2Z 
Suspended 
linux> ps t 
PLD TITY STAT TIME COMMAND 
14072 pts/3 T 0:02 ./signall 
14075 pts/3 Z 0:00 [signali] <defunct> 
14076 pts/3 R+ 0:00 ps t 


哪里 出 错 了 呢 ? 问 题 就 在 于 我 们 的 代码 没有 解决 信号 不 会 排队 等 待 这样 的 情况 。 所 发 
生 的 情况 是 : 父 进程 接收 并 捕获 了 第 一 个 信号 。 当 处 理 程 序 还 在 处 理 第 一 个 信号 时 ， 第 二 
个 信号 就 传送 并 添加 到 了 竺 处 理 信 号 集合 里 。 然 而 ， 因 为 SIGCHLD 信号 被 SIGCHLD 处 
理 程 序 阻塞 了 ， 所 以 第 二 个 信号 就 不 会 被 接收 。 此 后 不 久 ， 就 在 处 理 程 序 还 在 处 理 第 一 个 
信和 号 时 ， 第 三 个 信号 到 达 了 。 因 为 已 经 有 了 一 个 竺 处 理 的 SIGCHLD， 第 三 个 SIGCHLD 
信号 会 被 丢弃 。 一 段 时 间 之 后 ， 处 理 程序 返回 ， 内 核 注意 到 有 一 个 待 处 理 的 SIGCHLD 信 
号 ， 就 迫使 父 进程 接收 这 个 信号 。 父 进程 捕获 这 个 信号 ， 并 第 二 次 执行 处 理 程序 。 在 处 理 
程序 完成 对 第 二 个 信和 号 的 处 理 之 后 ， 已 经 没有 竺 处理 的 SIGCHLD 信号 了 ， 而 且 也 绝 不 会 
再 有 ， 因 为 第 三 个 SIGCHLD 的 所 有 信息 都 已 经 丢失 了 。 由 此 得 到 的 重要 教训 是 ， 不 可 以 
用 信号 来 对 其 他 进程 中 发 生 的 事件 计数 。 

为 了 修正 这 个 问题 ， 我 们 必须 回想 一 下 ， 存 在 一 个 待 处 理 的 信号 只 是 暗示 自 进 程 最 后 
一 次 收 到 一 个 信号 以 来 ， 至 少 已 经 有 一 个 这 种 类 型 的 信号 被 发 送 了 。 所 以 我 们 必须 修改 
SIGCHLD 的 处 理 程 序 ， 使 得 每 次 SIGCHLD 处 理 程 序 被 调用 时 ， 回 收 尽 可 能 多 的 僵 死 子 
进程 。 图 8-37 展示 了 修改 后 的 SIGCHLD 处 理 程 序 。 

当 我 们 在 Linux 系统 上 运行 signal2 时 ， 它 现在 可 以 正确 地 回收 所 有 的 僵 死 子 进 
程 了 了 : 


linux> ./signal2 
Hello from child 15237 


Ws 


区 
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Hello from child 15238 
Hello from child 15239 
Handler reaped child 
Handler reaped child 
Handler reaped child 
CR 

Parent processing input 


code/ectsienal2.c 
1 void handler2(int sig) 
。 齐 
3 int olderrno = errno.; 
4 
5 while (waitpid(-1, NULL, 0) > 0) +{ 
6 Sio_puts("Handler reaped child\n"); 
7 
8 if (errno != ECHILD) 
9 Sio_error("waitpid error") ; 
10 Sleep(1) ; 
11 errno = olderrno; 
12 } 

code/ecf/signal2.c 
到 837 signal2: 图 8-36 的 一 个 改进 版 本 ， 它 能 够 正确 解决 信号 不 会 排队 等 待 的 情况 

练习 题 8.8 下 面 这 个 程序 的 输出 是 什么 ? 
code/ecf/signalprob0.c 


| volatile long counter = 2; 


3 void handlerl(int sig) 


4 { 

5 sigset_t mask, prev_mask; 

6 

7 Sigfillset (&mask); 

8 Sigprocmask (SIG_BLOCK, &mask, &prev_mask); /* Block sigs */ 
1 Sio_putI(--counter) ; 

10 Sigprocmask (SIG_SETMASK, &prev_mask, NULL); /* Restore sigs */ 
11 

12 _exit (0); 

I 

14 

15 int main() 

16 { 

17 pid. t pid; 

18 sigset_t mask, prev_mask; 

19 

20 printf("%ld", counter); 

21 fflush(stdout); 

22 

23 signal (SIGUSR1, handler1); 


24 if ((pid = Fork()) == 0) { 


25 while(1) {}; 

26 } 

27 Kill(pid, SIGUSR1); 

28 Waitpid(-1, NULL, 0); 

29 

30 Sigfillset (&mask); 

31 Sigprocmask (SIG_BLOCK, &mask, &prev_mask); /* Block sigs */ 
32 printf("%ld", ++counter); 

33 Sigprocmask (SIG_SETMASK, &prev_mask, NULL); /* Restore sigs */ 
34 

35 exit(0); 

36 } 


code/ech/signalprob0.c 


3. 可 移植 的 信号 处 理 

Unix 信和 号 处 理 的 另 一 个 缺陷 在 于 不 同 的 系统 有 不 同 的 信号 处 理 语义 。 例 如 : 

@ signal 函数 的 语义 各 有 不 同 。 有 些 老 的 Unix 系统 在 信号 上 被 处理 程序 捕获 之 后 就 
把 对 信号 & 的 反应 恢复 到 默认 值 。 在 这 些 系 统 上 ， 每 次 运行 之 后 ， 处 理 程序 必须 调 
用 signal 困 数 ， 显 式 地 重新 设置 它 上 自己 。 

@ 系统 调用 可 以 被 中 断 。 像 read、write 和 accept 这 样 的 系统 调用 潜在 地 会 阻塞 进 
程 一 段 较 长 的 时 间 ， 称 为 慢 速 系统 调用 。 在 某 些 较 早 版 本 的 Unix 系统 中 ， 当 处 理 
程序 捕获 到 一 个 信号 时 ， 被 中 断 的 慢 速 系统 调用 在 信号 处 理 程序 返回 时 不 再 继续 ， 
而 是 立即 返回 给 用 户 一 个 错误 条 件 ， 并 将 errno 设置 为 EINTR。 在 这 些 系 统 上 ， 
程序 员 必 须 包 括 手 动 重 启 被 中 断 的 系统 调用 的 代码 。 

要 解决 这 些 问 题 ，Posix 标准 定义 了 sigaction 图 数 ， 它 允许 用 户 在 设置 信号 处 理 

时 ， 明 确 指定 他 们 想 要 的 信号 处 理 语义 。 


#include <signal.h> 


int sigaction(int signum, struct sigaction *act, 


struct sigaction *oldact); 


返回 ; 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





sigaction 水 数 运用 并 不 广泛 ， 因 为 它 要 求 用 户 设置 一 个 复杂 结构 的 条 目 。 一 个 更 简 
洁 的 方式 ， 最 初 是 由 W. Richard Stevens 提出 的 L110]， 就 是 定义 一 个 包装 函数 ， 称 为 
Signal， 它 调用 sigaction。 图 8-38 给 出 了 signal 的 定义 ， 它 的 调用 方式 与 signal 也 
数 的 调用 方式 一 样 。 

signal 包装 函数 设置 了 一 个 信和 号 处 理 程 序 ， 其 信号 处 理 语义 如 下 : 

e@ 只 有 这 个 处 理 程 序 当 前 正在 处 理 的 那 种 类 型 的 信和 号 被 阻塞 。 

e 和 所 有 信号 实现 一 样 ， 信 和 号 不 会 排队 等 待 。 

e 只 要 可 能 ， 被 中 断 的 系统 调用 会 目 动 重 局 。 

e 一 旦 设置 了 信号 处 理 程序 ， 它 就 会 一 直 保 持 ， 直 到 Signal 市 着 handler 参数 为 

SIG _IGN 或 者 SIG_DFL 被 调用 。 
我 们 在 所 有 的 代码 中 实现 Signal 包装 辆 数 。 


8. 5.6 同步 流 以 避免 讨厌 的 并 发 错误 
如 何 编写 读 写 相同 存储 位 置 的 并 发 流程 序 的 问题 ， 困 扰 着 数 代 计算 机 科学 家 。 一 般 而 
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言 ， 流 可 能 交错 的 数量 与 指令 的 数量 呈 指 数 关 系 。 这 些 交 错 中 的 一 些 会 产生 正确 的 结果 ， 
而 有 些 则 不 会 。 基 本 的 问题 是 以 某 种 方式 同步 并 发 流 ， 从 而 得 到 最 大 的 可 行 的 交错 的 集 
合 ， 每 个 可 行 的 交错 都 能 得 到 正确 的 结果 。 

code/src/csapp.c 
handler_t *Signal(int signum, handler_t *handler) 
{ 


struct sigaction action, old_action; 


action.sa_handler = handler; 
sigemptyset (&action.sa_mask); /* Block sigs of type being handled */ 
action.sa_flags = SA_RESTART; /* Restart syscalls if possible */ 


if (sigaction(signum, &action, &old_action) < 0) 
unix_error("Signal error'"); 
11 return (old_action.sa_handler); 


code/src/csapp.c 
Signal: sigaction 的 一 个 包装 多 数 ， 它 提供 在 Posix 兼容 系统 上 的 可 移植 的 信号 处 理 


并 发 编程 是 一 个 很 深 且 很 重要 的 问题 ， 我 们 将 在 第 12 章 中 更 详细 地 讨论 。 不过， 在 
本 章 中 学 习 的 有 关 异 常 控制 流 的 知识 ， 可 以 让 你 感觉 一 下 与 并 发 相关 的 有 趣 的 智力 挑战 。 
例如 ， 考 虑 图 8-39 中 的 程序 ， 它 总 结 了 一 个 典型 的 Unix shell 的 结构 。 父 进程 在 一 个 全 局 
作业 列表 中 记录 着 它 的 当前 子 进 程 ， 每 个 作业 一 个 条 目 。addjob 和 deletejob 函数 分 别 
向 这 个 作业 列表 添加 和 从 中 删除 作业 。 

当 父 进程 创建 一 个 新 的 子 进程 后 ， 它 就 把 这 个 子 进程 添加 到 作业 列表 中 。 当 父 进 程 在 
SIGCHLD 处 理 程序 中 回收 一 个 终止 的 ( 僵 死 ) 子 进程 时 ， 它 就 从 作业 列表 中 删除 这 个 子 
进程 。 

乍 一 看 ， 这 段 代码 是 对 的 。 不 幸 的 是 ， 可 能 发 生 下面 这 样 的 事件 序列 : 

1) 父 进程 执行 fork 函数 ， 内 核 调度 新 创建 的 子 进程 运行 ， 而 不 是 父 进程 。 

2) 在 父 进程 能 够 再 次 运行 之 前 ， 子 进程 就 终止 ， 并 且 变 成 一 个 僵 死 进程 ， 使 得 内 核 
传递 一 个 SIGCHLD 信号 给 父 进 程 。 

3) 后 来 ， 当 父 进程 再 次 变 成 可 运行 但 又 在 它 执 行 之 前 ， 内 核 注 意 到 有 未 处 理 的 
SIGCHLD 信号 ， 并 通过 在 父 进程 中 运行 处 理 程 序 接收 这 个 信和 号 。 

4) 信号 处 理 程 序 回收 终止 的 子 进程 ， 并 调用 deletejob， 这 个 函数 什么 也 不 做 ， 因 
为 父 进程 还 没有 把 该 子 进程 添加 到 列表 中 。 

5) 在 处 理 程 序 运 行 完 毕 后 ， 内 核 运 行 父 进程 ， 父 进程 从 fork 返回 ， 通 过 调用 add- 
job 错误 地 把 (不 存在 的 ) 子 进程 添加 到 作业 列表 中 。 

因此 ， 对 于 父 进 程 的 main 程序 和 信号 处 理 流 的 某 些 交错 ， 可 能 会 在 addjob 之 前 调 
用 deletejob。 这 导致 作业 列表 中 出 现 一 个 不 正确 的 条 目 ， 对 应 于 一 个 不 再 存在 而 且 永 远 
也 不 会 被 删除 的 作业 。 男 一 方面 ， 也 有 一 些 交 错 ， 事 件 按照 正确 的 顺序 发 生 。 例 如 ， 如 果 
在 fork 调用 返回 时 ， 内 核 刚好 调度 父 进 程 而 不 是 子 进程 运行 ， 那 么 父 进 程 就 会 正确 地 把 
子 进程 添加 到 作业 列表 中 ， 然 后 子 进 程 终止 ， 信 号 处 理 取 数 把 该 作业 从 列表 中 删除 。 

这 是 一 个 称 为 竞争 (race) 的 经 典 同步 错误 的 示例 。 在 这 个 情况 中 ，main 函数 中 调用 
addjob 和 处 理 程序 中 调用 deletejob 之 间 存 在 竞争 。 如 果 addjob 赢得 进展 ， 那 么 结果 


042 


就 是 正确 的 。 如 果 它 没有 ， 那 么 
可 能 测试 所 有 的 交错 。 你 可 能 运 
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结果 就 是 错误 的 。 这 样 的 错误 非常 难以 调试 ， 因 为 几乎 不 
行 这 段 代码 十 亿 次 ， 也 没有 一 次 错误 ， 但 是 下 一 次 测试 却 


导致 引 发 苋 争 的 交错 。 


{ 


19 int 


天 和 
图 oS 3 


code/ecHprocmaskl1.c 


/* WARNING: This code is buggy! */ 
void handler(int sig) 


int olderrno = errno; 
sigset._t mask_all, prev_all; 
pid_t pid; 


Sigfillset (&mask_all); 

while ((pid = waitpid(-1, NULL, 0)) > 0) { /* Reap a zombie child */ 
Sigprocmask (SIG_BLOCK, &mask_all, &prev_all); 
deletejob(pid); /* Delete the child from the job list */ 
Sigprocmask (SIG_SETMASK, &prev_all, NULL); 

} 

if (errno != ECHILD) 
Sio_error('"waitpid error'"); 

errno = olderrno; 


main(int argc, char **argv) 


int pid; 
sigset_t mask_all, prev_all; 


Sigfillset (&mask_all); 
Signal (SIGCHLD, handler); 
initjobs(); /* Initialize the job list */ 


while (1) { 
if ((pid = Fork()) == 0) { /* Child process */ 
Execve("/bin/date", argv, NULL); 
+ 
Sigprocmask (SIG_BLOCK, &mask_all, &prev_all); /* Parent process */ 
addjob(pid); /* Add the child to the job list */ 
Sigprocmask (SIG_SETMASK, &prev_all, NULL); 
} 
exit (0); 


code/ecfprocmaskl.c 


一 个 具有 细微 同步 错误 的 shell 程序 。 如 果子 进程 在 父 进程 能 够 开始 运行 前 就 结束 了 ， 那 么 
addjob 和 deletejob 会 以 错误 的 方式 被 调用 


图 8-40 展示 了 消除 图 8-39 中 竞争 的 一 种 方法 。 通 过 在 调用 fork 之 前 ， 阻塞 
SIGCHLD 信号 ， 然 后 在 调用 addjob 之 后 取消 阻塞 这 些 信和 号， 我 们 保证 了 在 子 进程 被 添 
加 到 作业 列表 中 之 后 回收 该 子 进 程 。 注 意 ， 子 进程 继承 了 它们 父 进程 的 被 阻塞 集合 ， 所 以 
我 们 必须 在 调用 execve 之 前 ， 小 心地 解除 子 进程 中 阻塞 的 SIGCHLD 信和 号。 
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code/ecfprocmask2.c 
1 void handler(int sig) 
2 二 
3 int olderrno = errno; 
二 sigset_t mask_all, prev_all,; 
5 pid t pid; 
0 
7 Sigfillset(&mask_al1) ; 
8 while ((pid = waitpid(-1, NULL, 0)) > 0) { /* Reap a Zombie child */ 
9 Sigprocmask (SIG_BLOCK, &mask_all, &prev_all); 
10 deletejob(pid); /* Delete the child from the job list */ 
11 Sigprocmask (SIG_SETMASK, &prev_all, NULL); 
12 } 
13 if (errno != ECHILD) 
14 Sio_error("waitpid error"); 
15 errno = olderrno; 
16 } 
i 
18 int main(int argc, char **argv) 
19 { 
20 int Pid; 
21 sigset_t mask_all, mask_one, prev_one,; 
22 
23 Sigfillset (&mask_all); 
24 Sigemptyset (&mask_one); 
25 Sigaddset (&mask_one, SIGCHLD), 
26 Signal (SIGCHLD, handler); 
27 initjobs(); /* Initialize the job list */ 
28 
29 while (1) { 
30 Sigprocmask (SIG_BLOCK, &mask_one, &prev_one); /* Block SIGCHLD */ 
31 if ((pid = Fork()) == 0) { /* Child process */ 
32 Sigprocmask (SIG_SETMASK, &prev_one, NULL); /* Unblock SIGCHLD */ 
33 Execve("/bin/date", argv, NULL); 
34 } 
35 Sigprocmask (SIG_BLOCK, &mask_all, NULL); /* Parent process */ 
36 addjob(pid); /* Add the child to the job list */ 
37 Sigprocmask (SIG_SETMASK, &prev_one, NULL); /* Unblock SIGCHLD */ 
38 } 
39 exit (0); 
40 } 


code/ectprocmask2.c 
外 8-40 用 sigprocmask 来 同步 进程 。 在 这 个 例子 中 ， 父 进程 保证 在 相应 的 deletejob 之 前 执行 addjob 


8. 5. 7 显 式 地 等 待 信号 


有 时 候 主 程序 需要 显 式 地 等 待 某 个 信号 处 理 程序 运行 。 例 如 ， 当 Linux shell 创建 一 个 前 
台 作 业 时 ， 在 接收 下 一 条 用 户 命令 之 前 ， 它 必须 等 待 作业 终止 ， 被 SIGCHLD 处 理 程序 回收 。 
图 8-41 给 出 了 一 个 基本 的 思路 。 父 进程 设置 SIGINT 和 SIGCHLD 的 处 理 程 序 ， 然 后 
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进入 一 个 无 限 循环 。 它 阻塞 SIGCHLD 信号， 避免 8. 5.6 节 中 讨论 过 的 父 进程 和 子 进 程 之 
间 的 竞争 。 创 建 了 子 进程 之 后 ， 把 pidQ 重 置 为 0， 取 消 阻塞 SIGCHLD， 然 后 以 循环 的 方 
式 等 待 pid 变 为 非 零 。 子 进程 终止 后 ， 处 理 程序 回收 它 ， 把 它 非 零 的 PID 赋值 给 全 局 pia 
变量 。 这 会 终止 循环 ， 父 进程 继续 其 他 的 工作 ， 然 后 开始 下 一 次 迭代 。 
code/ecf/waitforsignal.c 
#include "csapp.h" 


volatile sig_atomic_t pid; 


| 
2 
3 
4 
5 void sigchld_handler(int s) 
6 
7 
8 


int olderrno = errno; 
pid = waitpid(-1, NULL, 0); 
9 errno = olderrno; 
10 } 
11 
12 ”void sigint_handler(int s) 
13 { 
14 中 
15 
16 int main(int argc, char **argv) 
17 { 
18 sigset_t mask, prey; 
19 
20 Signal (SIGCHLD, sigchld_handler); 
21 Signal (SIGINT, sigint_handler); 
22 Sigemptyset (&mask); 
23 Sigaddset (&mask, SIGCHLD); 
24 
25 while (1) { 
26 Sigprocmask (SIG_BLOCK, &mask, &prev); /* Block SIGCHLD */ 
27 if (Fork() == 0) /* Child */ 
28 exit(0); 
29 
30 /* Parent */ 
31 pid = 0; 
32 Sigprocmask (SIG_SETMASK, &prev, NULL); /* Unblock SIGCHLD */ 
33 
34 /* Wait for SIGCHLD to be received (wasteful) */ 
35 while (!pid) 
36 ; 
37 
38 /* Do some work after receiving SIGCHLD */ 
39 printkf(*. "YY 
40 } 
41 exit(0); 
42 } 


code/ecf/waitforsignal.c 


打 8-4] 用 循环 来 等 竺 信号。 这 段 代码 正确 ， 但 循环 是 一 种 浪费 
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当 这 段 代 码 正 确 执 行 的 时 候 ， 循 环 在 浪费 处 理 器 资源 。 我 们 可 能 会 想 要 修补 这 个 问 
题 ， 在 循环 体内 插入 pause: 


while (lIpid) /* Race! */ 
pause() ; 


注意 ， 我 们 仍然 需要 一 个 循环 ， 因 为 收 到 一 个 或 多 个 SIGINT 信号 ，pause 会 被 中 
断 。 不 过 ， 这 段 代 码 有 很 严重 的 竞争 条 件 : 如 果 在 while 测试 后 和 pause 之 前 收 到 
SIGCHLD 信号 ，pause 会 永远 睡眠 。 

男 一 个 选择 是 用 sleep 替换 pause: 


while (!Pid) /* Too slow! */ 
sleep(1); 


当 这 上段 代码 正确 执行 时 ， 它 太 慢 了 。 如 果 在 while 之 后 pause 之 前 收 到 信和 号， 程序 
必须 等 相当 长 的 一 段 时 间 才 会 再 次 检查 循环 的 终止 条 件 。 使 用 像 nanosleep 这 样 更 高 精 
度 的 休眠 函数 也 是 不 可 接受 的 ， 因 为 没有 很 好 的 方法 来 确定 休眠 的 间隔 。 间 隅 太 小 ， 循 环 
会 太 浪 费 。 间 隔 太 大 ， 程 序 又 会 太 慢 。 

合适 的 解决 方法 是 使 用 sigsuspend。 


#include <signal.h> 


int sigsuspend(const sigset_t *mask); 





sigsuspend 函数 暂时 用 mask 替换 当前 的 阻塞 集合 ， 然 后 挂 起 该 进程 ， 直 到 收 到 一 
个 信号 ， 其 行为 要 么 是 运行 一 个 处 理 程序 ， 要 么 是 终止 该 进程 。 如 果 它 的 行为 是 终止 ， 那 
么 该 进程 不 从 sigsuspend 返回 就 直接 终止 。 如 果 它 的 行为 是 运行 一 个 处 理 程序 ， 那 么 
sigsuspend 从 处 理 程序 返回 ， 恢 复 调用 sigsuspend 时 原 有 的 阻塞 集合 。 
sigsuspend 图 数 等 价 于 下 述 代码 的 原子 的 (不 可 中 断 的 ) 版 本 : 
sigprocmask (SIG_SETMASK, &mask, &prev); 


pause(); 
sigprocmask (SIG_SETMASK, &prev, NULL); 


原子 属性 保证 对 sigprocmask( 第 1 行 ) 和 pause( 第 2 行 ) 的 调用 总 是 一 起 发 生 的 ， 不 会 被 
中 汤 。 这 样 就 消除 了 潜在 的 竞争 ， 即 在 调用 sigprocmask 之 后 但 在 调用 pause 之 前 收 到 
于 一 小 信号 

图 8-42 展示 了 如 何 使 用 sigsuspend 来 替代 图 8-41 中 的 循环 。 在 每 次 调用 sigsus- 
pend 之 前 ， 都 要 阻塞 SIGCHLD。sigsuspend 会 暂时 取消 阻塞 SIGCHLD， 然 后 休 眼 ， 
直到 父 进程 捕获 信号 。 在 返回 之 前 ， 它 会 恢复 原始 的 阻塞 集合 ， 又 再 次 阻塞 SIGCHLD。 
如 果 父 进程 捕获 一 个 SIGINT 人 信号， 那么 循环 测试 成 功 ， 下 一 次 迭代 又 再 次 调用 sigsus- 
pend。 如 果 父 进程 捕获 一 个 SIGCHLD， 那 么 循环 测试 失败 ， 会 退出 循环 。 此 时 ， 
SIGCHLD 是 被 阻塞 的 ， 所 以 我 们 可 以 可 选 地 取消 阻塞 SIGCHLD。 在 真实 的 有 后 台 作 业 
需要 回收 的 shell 中 这 样 做 可 能 会 有 用 处 。 

sigsuspend 版 本 比 起 原来 的 循环 版 本 不 那么 浪费 ， 避 免 了 引入 pause 带 来 的 竞争 ， 
又 比 sleep 更 有 效率 。 
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code/ecHsigsuspend.c 

1 #include "csapp.h" 

3 volatile sig_atomic_t pid; 

4 

5 void sigchld_handler(int s) 

6 1 

7 int olderrno = errno; 

8 pid = Waitpid(-1, NULL, 0); 

9 errno = olderrno; 

10 } 

11 

I2 void sigint_handler(int s) 

13 4 

14 } 

15 

15 int main(int argc, char **argV) 

17 { 

18 sigset_t mask, prev; 

19 
20 Signal (SIGCHLD, sigchld_handler); 
21 Signal (SIGINT, sigint_handler); 
22 Sigemptyset (&mask); 
23 Sigaddset (&mask, SIGCHLD); 
24 
25 While (1) { 
26 Sigprocmask (SIG_BLOCK, &mask, &prev); /* Block SIGCHLD */ 
27 if (Fork() == 0) /* Child */ 
28 exit(0); 
29 

30 /* Wait for SIGCHLD to be received +*/ 
31 pid = 0; 

32 while (!pid) 

33 sigsuspend (&prev);; 

34 

35 /* Optionally unblock SIGCHLD */ 

36 Sigprocmask (SIG_SETMASK, &prev, NULL); 
37 

38 /* Do some work after receiving SIGCHLD */ 
39 | 
40 人 2 
41 exit (0); 
42 } 

code/ecf/sigsuspend.c 
图 8-42 用 sigsuspend 来 等 待 信号 
8.6 非 本 地 跳 转 


C 语言 提供 了 一 种 用 户 级 异常 控制 流 形式 ， 称 为 非 本 地 跳 转 Cnonlocal jump)， 它 将 控 
制 直接 从 一 个 函数 转移 到 男 一 个 当前 正在 执行 的 函数 ， 而 不 需要 经 过 正常 的 调用 -返回 序 
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列 。 非 本 地 跳 转 是 通过 setjmp 和 longjmp 函数 来 提供 的 。 


#include <setjmp.h> 


int setjmp(jmp_buf env) ; 


int sigsetjmp(sigjmp_buf env, int savesigs); 


返回 : setjmp 返回 0，longjmp 返回 非 零 ， 





setjmp 函数 在 env 缓冲 区 中 保存 当前 调用 环境 ， 以 供 后 面 的 longjmp 使 用 ， 并 返回 
0。 调 用 环境 包括 程序 计数 硕 、 栈 指针 和 通用 目的 寄存 器 。 出 于 某 种 超出 本 书 摘 述 范围 的 
原因 ，setjmp 返回 的 值 不 能 被 赋值 给 变量 : 


rc = setjmp(env); /* Wrong! */ 
不 过 它 可 以 安全 地 用 在 switch 或 条 件 语句 的 测试 中 [62j]。 


#include <setjmp.h> 


void longjmp(jmp_buf env, int retval); 


void siglongjmp(sigjmp_buf env, int retval); 





longjmp 因数 从 env 缓冲 区 中 恢复 调用 环境 ， 然后 触发 一 个 从 最 近 一 次 初始 化 env 
的 setjmp 调用 的 返回 。 然 后 setjmp 返回 ， 并 市 有 非 零 的 返回 值 retval。 

第 一 眼看 过 去 ，setjmp 和 longjmp 之 间 的 相互 关系 令 人 迷惑 。setjmp 子 数 只 被 调 
用 一 次 ， 但 返回 多 次 : 一 次 是 当 第 一 次 调用 setjmp， 而 调用 环境 保存 在 缓冲 区 env 中 时 ， 
一 次 是 为 每 个 相应 的 longjmp 调用 。 男 一 方面 ，longjmp 函数 被 调用 一 次 ， 但 从 不 返回 。 

非 本 地 跳 转 的 一 个 重要 应 用 就 是 允许 从 一 个 深层 藤 套 的 图 数 调 用 中 立即 返回 ， 通 笛 是 
由 检测 到 某 个 错误 情况 引起 的 。 如 果 在 一 个 深层 骸 套 的 函数 调用 中 发 现 了 一 个 错误 情况 ， 
我 们 可 以 使 用 非 本 地 跳 转 直 接 返 回 到 一 个 普通 的 本 地 化 的 错误 处 理 程序 ， 而 不 是 费力 地 解 
开 调 用 栈 。 

图 8-43 展示 了 一 个 示例 ， 说 明 这 可 能 是 如 何 工 作 的 。main 函数 首先 调用 setjmp 以 
保存 当前 的 调用 环境 ， 然 后 调用 子 数 foo，foeo 依次 调用 函数 bar。 如 果 foo 或 者 bar 过 
到 一 个 错误 ， 它 们 立即 通过 一 次 longjmp 调用 从 setjmp 返回 。setjmp 的 非 零 返 回 值 指 
明了 错误 类 型 ， 随 后 可 以 被 解码 ， 且 在 代码 中 的 某 个 位 置 进 行 处 理 。 


code/ecf/setimp.c 
#include "csapp.h" 


jmp_buf buf; 


int errorl = 0; 
int error2 = 1; 


void foo(void) , bar(void); 


‘© 0 YN OO AAA UN 一 


图 8-43 非 本 地 跳 转 的 示例 。 本 示例 表明 了 使 用 非 本 地 跳 转 来 从 深层 拒 套 的 
肾 数 调用 中 的 错误 情况 恢复 ,而 不 需要 解 开 整个 栈 的 基本 框架 
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10 int main() 

| | { 

12 switch(setjmp(buf)) +{ 

[3 case 0: 

14 foo(); 

15 break ; 

16 case 1: 

17 printf("Detected an errorl condition in foo\n'"); 
18 break ; 

19 case 2: 

20 Printf("Detected an error2 condition in fooNn'") ; 
21 break; 

22 default: 

23 printf ("Unknown error condition in foo\n'"); 

24 } 

25 exit (0):; 

26 } 


/ 
28  /* Deeply nested function foo */ 
) void foo(void) 


30 { 

3] if (errori1) 

32 longjmp (buf , 1); 
33 bar(); 

34 } 

35 

36 void bar(void) 

37 { 

38 if (error2) 

39 longjmp (buf ，2) ; 
40 } 


code/ecf/setimp.c 
[8-143 【〈《 续 ) 


longjmp 允许 它 跳 过 所 有 中 间 调 用 的 特性 可 能 产生 意外 的 后 果 。 例 如 ， 如 果 中 间 隐 数 
调用 中 分 配 了 某 些 数据 结构 ， 本 来 预期 在 函数 结尾 处 释放 它们 ， 那么 这 些 释放 代码 会 被 跳 
过 ， 因 而 会 产生 内 存 汇 漏 。 

非 本 地 跳 转 的 另 一 个 重要 应 用 是 使 一 个 信号 处 理 程序 分 支 到 一 个 特殊 的 代码 位 置 ， 而 不 
是 返回 到 被 信号 到 达 中 断 了 的 指令 的 位 置 。 图 8-44 展示 了 一 个 简单 的 程序 ， 说 明了 这 种 基本 
技术 。 当 用 户 在 键盘 上 键 人 Ctrl 十 C 时 ， 这 个 程序 用 信号 和 非 本 地 跳 转 来 实现 软 重 局 。sig- 
setjmp 和 siglongjmp 函数 是 setjmp 和 longjmp 的 可 以 被 信号 处 理 程序 使 用 的 版 本 。 

在 程序 第 一 次 启动 时 ， 对 sigsetjmp 图 数 的 初始 调用 保存 调用 环境 和 信和 号 的 上 下 文 
(包括 待 处 理 的 和 被 阻塞 的 信号 向 量 )。 随 后 ， 主 函数 进入 一 个 无 限 处 理 循 环 。 当 用 户 键 人 
Ctrl 十 C 时 ， 内 核发 送 一 个 SIGINT 信号 给 这 个 进程 ， 该 进程 捕获 这 个 信号 。 不 是 从 信号 
处 理 程序 返回 ， 如 果 是 这 样 那么 信号 处 理 程序 会 将 控制 返回 给 被 中 断 的 处 理 循环 ， 反之， 
处 理 程序 完成 一 个 非 本 地 跳 转 ， 回 到 main 函数 的 开始 处 。 当 我 们 在 系统 上 运行 这 个 程序 
时 ， 得 到 以 下 输出 : 
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linux> ./restart 
starting 
processing... 
processing... 
Ctrl+C 
restarting 
processing... 
Ctrl+C 
restarting 
processing... 


关于 这 个 程序 有 两 件 很 有 趣 的 事情 。 首 先 ， 为 了 避免 竞争 ， 必 须 在 调用 了 sigsetjmp 之 
后 再 设置 处 理 程序 。 否 则 ， 就 会 冒 在 初始 调用 sigsetjmp 为 siglongjmp 设置 调用 环境 之 前 
运行 处 理 程序 的 风险 。 其 次 ， 你 可 能 已 经 注意 到 了 ，sigsetjmp 和 siglongjmp 图 数 不 在 图 
8-33 中 异步 信号 安全 的 图 数 之 列 。 原 因 是 一 般 来 说 siglongjmp 可 以 跳 到 任意 代码 ， 所 以 我 
们 必须 小 心 ， 只 在 siglongjmp 可 达 的 代码 中 调用 安全 的 困 数 。 在 本 例 中 ， 我 们 调用 安全 的 
sio_puts 和 sleep 因数 。 不 安全 的 exit 图 数 是 不 可 达 的 。 


code/ectrestart.c 
1 #include "csapp.h" 
2 
3 sigjmp_buf buf; 
4 
5 void handler(int sig) 
6 蒜 
7 siglongjmp(buf ,1); 
8 
9 
I0 int main() 
11 { 
12 if (lsigsetjmp(buf, 1)) { 
13 Signal (SIGINT, handler); 
14 Sio_puts("startingNn'" ) ; 
15 } 
16 else 
17 Sio_puts("restarting\n"); 
18 
19 while(1) { 
20 Sleep (1); 
21 Sio_puts("processing...\n'"); 
22 上 
23 exit(0); /* Control never reaches here */ 
24 
code/ecf/restart.c 


名 8-44 当 用 户 键入 Ctrl+C 时 ， 使 用 非 本 地 跳 转 来 重启 动 它 自身 的 程序 


医 当 C++ 和 Java 中 的 软件 异常 


C++ 和 Java 提供 的 异常 机 制 是 较 高 层次 的 ， 是 C 语言 的 setjmp 和 Longjmp 函数 
的 更 加 结构 化 的 版 本 。 你 可 以 把 try 语句 中 的 catch 子 名 看 做 类 似 于 setjmp 函数 。 相 
似 地 ，throw 语句 就 类 似 于 longjmp 函数 。 
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8. 7 操作 进程 的 工具 


Linux 系统 提供 了 大 量 的 监控 和 操作 进程 的 有 用 工具 。 

STRACE: 打印 一 个 正在 运行 的 程序 和 它 的 子 进 程 调用 的 每 个 系统 调用 的 轨迹 。 对 于 
好 奇 的 学 生 而 言 ， 这 是 一 个 令 人 着 迷 的 工具 。 用 -static 编译 你 的 程序 ， 能 得 到 一 个 更 干 
净 的 、 不 带 有 大 量 与 共享 库 相 关 的 输出 的 轨迹 。 

PS: 列 出 当前 系统 中 的 进程 (包括 僵 死 进程 )。 

TOP: 打印 出 关于 当前 进程 资源 使 用 的 信息 。 

PMAP: 显示 进程 的 内 存 映 射 。 

/proc: 一 个 虚拟 文件 系统 ， 以 ASCII 文本 格式 输出 大 量 内 核 数 据 结构 的 内 容 ， 用 户 
程序 可 以 读 取 这 些 内 容 。 比 如 ,输入 “cat/proc/loadavg”， 可 以 看 到 你 的 Linux 系统 上 
当前 的 平均 负载 。 


8.8 小 结 


异常 控制 流 (ECF) 发 生 在 计算 机 系统 的 各 个 层次 ， 是 计算 机 系统 中 提供 并 发 的 基本 机 制 。 

在 人 硬件 层 ， 异 常 是 由 处 理 器 中 的 事件 触发 的 控制 流 中 的 突变 。 控 制 流传 递 给 一 个 软件 处 理 程序 ， 该 
处 理 程序 进行 一 些 处 理 ， 然后 返回 控制 给 被 中 断 的 控制 流 。 

有 四 种 不 同类 型 的 异常 中断、 故障 、 终 止 和 陷阱 。 当 一 个 外 部 VOD 设备 (例如 定时 句 艺 片 或 者 磁盘 
控制 恬 ) 设 置 了 处 理 器 芯片 上 的 中 断 管 脚 时 ，(〈 对 于 任意 指令 ) 中 断 会 异步 地 发 生 。 pee pt 
面 的 那 条 指令 。 一 条 指令 的 执行 可 能 导致 故障 和 终止 同步 发 生 。 故 障 人 处 理 程序 会 重新 启动 故障 指令 ， 
终止 处 理 程序 从 不 将 控制 返回 给 被 中 断 的 流 。 最 后 nebo thst 
受 控 的 人口 点 的 系统 调用 的 函数 调用 。 

在 操作 系统 层 ， 内 核 用 ECF 提供 进程 的 基本 概念 。 进 程 提供 给 应 用 两 个 重要 的 抽象 : 1) 逻 辑 控制 
流 ， 它 提供 给 每 个 程序 一 个 假象 ， 好 像 它 是 在 独占 地 使 用 处 理 器 ，2) 私 有 地 址 空间 ， 它 提供 给 每 个 程序 

一 个 假象 ， 好 像 它 是 在 独占 地 使 用 主 存 。 

在 操作 系统 和 应 用 程序 之 间 的 接口 处 ， 应 用 程序 可 以 创建 子 进程 ， 等 竺 它们 的 子 进 程 停 止 或 者 终止 ， 
运行 新 的 程序 ， 以 及 捕获 来 自 其 他 进程 的 信号 。 信 和 号 处 理 的 语义 是 微妙 的 ， 并 且 随 系统 不 同 而 不 同 。 然 
而 ， 在 与 Posix 兼 容 的 系统 上 存在 着 一 些 机 制 ， 人 允许 程序 清楚 地 指定 期 望 的 信号 处 理 语 义 。 

最 后 ， 在 应 用 层 ，C 程序 可 以 使 用 非 本 地 跳 转 来 规避 正常 的 调用 /返回 栈 规则 ， 并 且 直 接 从 一 个 函数 
分 文 到 男 一 个 函数 。 


参考 文献 说 明 
Kerrisk 是 Linux 环境 编程 的 完全 参考 手册 [62]。Intel ISA 规范 包含 对 Intel 处 理 器 上 的 异常 和 中 断 
的 详细 讨论 L50]。 操 作 系 统 教科 书 [102，106，113] 包 括 关 于 异常 、 进 程 和 信号 的 其 他 信息 。W. Richard 


Stevens 的 [L111] 是 一 本 有 价值 的 和 可 读 性 很 高 的 经 典 著 作 ， 是 关于 如 何在 应 用 程序 中 处 理 进程 和 信号 的 。 
Bovet 和 CesatiL 11 ] 给 出 了 一 个 关于 Linux 内 核 的 非常 清晰 的 描述 ， 包 括 进 程 和 信号 实现 的 细节 。 


家 庭 作 业 
,8.9 考虑 四 个 具有 如 下 开始 和 结束 时 间 的 进程 ， 


开始 时 间 


5 7 





2 4 
3 6 
] 8 
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对 于 每 对 进程 ， 指 明 它 们 是 否 是 并 发 地 运行 的 : 








| 


| 
"8. 10 ”在 这 一 章 里 ， 我 们 介绍 了 一 些 具有 不 寻常 的 调用 和 返回 行为 的 函数 : setjmp、longjmp、execve 
和 fork。 找 到 下 列 行为 中 和 每 个 困 数 相 匹 配 的 一 种 : 
A. 调用 一 次 ， 返 回 两 次 。 
B. 调用 一 次 ， 从 不 返回 。 
C. 调用 一 次 ， 返 回 一 次 或 者 多 次 。 
*“8. 11 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 


code/ecf/forkprobl.c 
I #include "csapp.h" 
2 
3 int main() 
4 苹 
5 3 和 
5 
7 for (i = 0; i «< 2: 14++) 
8 Fork(); 
9 printf ("hello\n'); 
10 exit (0); 
11 } 
code/ecf/forkprobl.c 
"8. 12 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 
code/ecf/forkprob4.c 
1 #include "csapp.h" 
2 
3 void doit() 
果冻 
5 Fork(); 
6 Fork() ; 
7 printf ("hello\n'"); 
8 return; 
9 
10 
11 int main() 
Ii2 芋 
13 doit(): 
14 printf ("hello\n'"); 
15 exit (0); 
6 
code/ecf/forkprob4d.c 
，8. 13 下面 程序 的 一 种 可 能 的 输出 是 什么 ? 
code/ect/forkprob3.c 


1 #include "csapp.h" 
2 
3 int main() 
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592 


14 


15 


16 


+4 攻 

S 1 尖 到 十 ; 

if (Fork() != 0) 

printf("x=%d\n", ++Xx); 

g 

10 printf("x=%ad\n", -—-x); 

11 exit(0); 

iI2 下 
下 面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 


| #include "csapp.h" 


3 void doit() 


4 { 

5 if (Fork() == 0) + 
6 ForK() ; 

7 printf ("hello\n"); 
8 exit(O) ; 

} 

i0 return,; 

11 } 

12 

i3 int main() 

14 +{ 

15 doit(); 

16 printf ("hello\n"); 
17 exit(0); 

ig } 


下 面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 


#include "csapp.h" 


1 
2 
3 void doit() 
| 
了 


{ 
if (Fork() == 0) { 

6 Fork() ; 
7 Printf("helloNn") ; 
8 return; 
9 
10 return; 
11 } 
] 2 
13 int main() 
14 { 
15 doit(); 
16 printf("hello\n"); 
17 exit(0); 
18 } 


下 面 这 个 程序 的 输出 是 什么 ? 


code/ect/forkprob3.c 


code/ecf/forkprob3.c 


code/ect/forkprob3.c 


code/ecf/forkprobo.c 


code/ectforkprob6.c 


CO “CO 
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code/ecf/forkprob7.c 
| #include "csapp.h" 
int counter = 1; 
int main() 
I 
if (fork() == 0) +{ 
counter-—-; 
- exit(0); 
9g } 
else 1{ 
Wait (NULL); 
2 printf("counter = %d\n", ++tcounter),; 
(3 } 
14 exit(0); 
15 } 
code/ect/forkprob7.c 
列举 练习 题 8. 4 中 程序 所 有 可 能 的 输出 。 
考虑 下 面 的 程序 : 
code/ecH/forkprob2.c 
#include "csapp.h" 
void end(void) 
{ 
5 printf ("2"); fflush(stdout) ; 
6 才 
int main() 
10 if (Fork() == 0) 
11 atexit (end); 
if (Fork() == 0) 1 
printf("0"); fflush(stdout); 
1: } 
15 else { 
16 printf("1"); fflush(stdout); 
17 } 
18 exit (0); 
19 } 
code/ect/forkprob2.c 


判断 下 面 哪个 输出 是 可 能 的 。 注 意 : atexit 图 数 以 一 个 指向 函数 的 指针 为 输入 ， 并 将 它 添 加 


到 函数 列表 中 (初始 为 空 )， 当 exit 函数 被 调用 时 ， 会 调用 该 列表 中 的 函数 。 
A. 112002 B. 211020 Cs 102120 D. 122001 


下 面 的 函数 会 打印 多 少 行 输 出 ? 用 一 个 7 的 函数 给 出 管 案 。 假设 nn 三 1。 


code/ecf/forkprobs.c 


void foo(int n) 


{ 


nb Ts 


for (i = 0; i < n; i++) 
Fork(); 

printf ("hello\n"); 

exit(0); 


code/ect/forkprobs.c 


9 
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** 8.20 使 用 execve 编写 一 个 叫做 myls 的 程序 ， 该 程序 的 行为 和 /bin/ls 程序 的 一 样 。 你 的 程序 应 该 接 


** B. 21 


+# 8. 22 


** 8. 23 


受 相 同 的 命令 行 参数 ， 解 释 同 样 的 环境 变量 ,并 产生 相同 的 输出 。 

1s 程序 从 COLUMNS 环境 变量 中 获得 屏幕 的 宽度 。 如 果 没 有 设置 COLUMNS， 那 么 1s 会 假 
设 屏幕 宽 80 列 。 因 此 ， 你 可 以 通过 把 COLUMNS 环境 设置 得 小 于 80, 来 检查 你 对 环境 变量 的 
处 理 ; 


linux> setenv COLUMNS 40 
linux> ./myls 


// Output is 40 columns wide 


linux> unsetenv COLUMNS 
linux> ./myls 


/ Ouitput is now 80 columns wide 


下 面 的 程序 可 能 的 输出 序列 是 什么 ? 


code/ecf/waitprob3.c 
1 int main() 
气 
3 if (fork() == 0) { 
4 printf("a"); fflush(stdout); 
5 exit(0); 
6 
7 else 1{ 
8 printf("b"); fflush(stdout); 
9 waitpid(-1, NULL, 0); 
10 } 
11 printf("c"); fflush(stdout); 
12 exit(O) ; 
13 } 
code/ecf/waitprob3.c 


编写 Unix system 函数 的 你 自己 的 版 本 


int mysystem(char *command); 


mysystem 消 数 通过 调用 “/bin/sh-c command” 来 执行 command， 然 后 在 command 完成 后 返回 。 
如 果 command( 通 过 调用 exit 函数 或 者 执行 一 条 return 语句 ) 正 常 退 出 ， 那么 mysystem 返回 
command 退出 状态 。 例 如 ， 如 果 command 通过 调用 exit (8) 终止， 那么 mysystem 返回 值 8。 否 
则 ， 如 果 command 是 异常 终止 的 ,那么 mysystem 就 返回 shell 返回 的 状态 。 

你 的 一 个 同事 想 要 使 用 信和 号 来 让 一 个 父 进程 对 发 生 在 子 进程 中 的 事件 计数 。 其 想法 是 每 次 发 生 一 
个 事件 时 ， 通 过 问 父 进程 发 送 一 个 信号 来 通知 它 ， 并 且 让 父 进 程 的 信号 处 理 程序 对 一 个 全 局 变量 
counter 加 一 ， 在 子 进程 终止 之 后 ， 父 进程 就 可 以 检查 这 个 变量 。 然 而 ， 当 他 在 系统 上 运行 图 8- 
45 中 的 测试 程序 时 ， 发 现 当 父 进程 调用 printf 时 ，counter 的 值 总 是 2， 即 使 子 进程 向 父 进程 发 
送 了 5 个 信号 也 是 如 此 。 他 很 困惑 ， 向 你 寻求 帮助 。 你 能 解释 这 个 程序 有 什么 错误 吗 ? 


code/ecf/counterprob.c 


1 #include "csapp.h" 
int counter = 0; 


void handler(int sig) 


Countert++; 
sleep(1); /* Do some work in the handler */ 


return; 


图 8-45 家庭 作业 8. 23 中 引用 的 计数 器 程序 


Da YO WW A Ww ho 


+* 8. 24 


#* 8. 25 


$s 全 
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10 } 

11 

12 int main() 

13 { 

14 I 1 

15 

16 Signal (SIGUSR2, handler); 

17 

18 if (Fork() == 0) { /* Child */ 
19 for (i = 0; i < 5; i++) 苹 

20 Kill (getppid(), SIGUSR2); 
21 printf("sent SIGUSR2 to parent\n"); 
22 

23 exXit(O) ; 

24 } 

25 

26 Wait (NULL):; 

27 printf ("counter=%d\n", counter); 
28 exit(0); 

29 上 


code/ecf/counterprob.c 
图 8-45 【〔 续 》 


修改 图 8-18 中 的 程序 ， 以 满足 下 面 两 个 条 件 : 

1) 每 个 子 进程 在 试图 写 一 个 只 读 文本 段 中 的 位 置 时 会 异常 终止 。 

2) 父 进 程 打 印 和 下 面 所 示 相 同 ( 除 了 PID) 的 输出 : 
child 12255 terminated by signal 11: Segmentation fault 
child 12254 terminated by signal 11: Segmentation fault 

提示 : 请 参考 psignal (3) 的 man 页 。 

编写 fgets 函数 的 一 个 版 本 ， 叫 做 tfgets， 它 5 秒 钟 后 会 超时 。tfgets 图 数 接收 和 fgets 相同 

的 输入 。 如 果 用 户 在 5 秒 内 不 键 人 一 个 输入 行 ，tfgets 返回 NULL。 否 则 ， 它 返回 一 个 指 癌 输入 

行 的 指针 。 

以 图 8-23 中 的 示例 作为 开始 点 ， 编 写 一 个 支持 作业 控制 的 shell 程序 。shell 必须 具有 以 下 特性 : 

@ 用 户 输入 的 命令 行 由 一 个 name、 零 个 或 者 多 个 参数 组 成 ， 它 们 都 由 一 个 或 者 多 个 空格 分 隔 开 。 
如 果 name 是 一 个 内 置 命 令 ， 那 么 shell 就 立即 处 理 它 ， 并 等 待 下 一 个 命令 行 。 否 则 ，shell 就 假 
设 name 是 一 个 可 执行 文件 ， 在 一 个 初始 的 子 进程 (作业 ) 的 上 下 文中 加 载 并 运行 它 。 作 业 的 进程 
组 ID 与 子 进程 的 PID 相同 。 

@ 每 个 作业 是 由 一 个 进程 ID(PID) 或 者 一 个 作业 IDUID) 来 标识 的 ， 它 是 由 一 个 shell 分 配 的 任意 的 
小 正 整数 。JID 在 命令 行 上 用 前 级 “s#” 来 表示 。 比 如 ,“s#5” 表 示 JID 5， 而 “5” 表 示 PID 5。 

@ 如 果 命 令 行 以 & 来 结束 ， 那 么 shell 就 在 后 台 运 行 这 个 作业 。 否 则 ，shell 就 在 前 台 运 行 这 个 作业 。 

@ 输入 Ctrl 十 CCCtrl 十 Z)， 使 得 内 核发 送 一 个 SIGINT(SIGTSTP) 信 号 给 shell，shell 再 转发 给 前 
台 进程 组 中 的 每 个 进程 

@ 内 置 命令 jobs 列 出 所 有 的 后 台 作 业 。 

@ 内 置 命令 bg job 通过 发 送 一 个 SIGCONT 信和 号 重启 17o8， 然 后 在 后 台 运 行 它 。jo8 参数 可 以 是 一 
个 PID， 也 可 以 是 一 个 JID。 

@ 内 置 命令 fg job 通过 发 送 一 个 SIGCONT 信号 重启 job， 然 后 在 前 台 运 行 它 。 


晶 ”注意 这 是 对 真实 的 shell 工作 方式 的 简化 。 真 实 的 shell 里 ， 内 核 响应 Ctrl 十 C(Ctrl 十 Z)， 把 SIGINT(SIGT- 


STP) 直 接 发 送 给 终端 前 台 进 程 组 中 的 每 个 进程 。shell 用 tcsetpgrp 函数 管理 这 个 进程 组 的 成 员 ， 用 tc- 
setattr 函数 管理 终端 的 属性 ， 这 两 个 函数 都 超出 了 本 书 讲述 的 范围 。 可 以 参考 [62j] 获 得 详细 信息 。 
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@ shell 回收 它 所 有 的 伪 死 子 进程 。 如 果 任 何 作 业 因 为 收 到 一 个 未 捕获 的 信号 而 终止 ， 那么 shell 就 
输出 一 条 消息 到 终端 ， 消 息 中 包含 该 作业 的 PID 和 对 该 信号 的 描述 。 
图 8-46 展示 了 一 个 shell 会 话 示 例 。 


linux> ./shell 

>bogus 

bogus: Command not found. 

>foo 10 

Job 5035 terminated by signal: Interrupt 
>foo 100 & 

[1] 5036 foo 100 & 

>foo 200 & 

[2] 5037 foo 200 & 

>jobs 

[1] 5036 Running foo 100 & 

[2] 5037 Running foo 200 & 

>fg %1 

Job [1] 5036 stopped by signal: Stopped 
>jobs 

[1] 5036 Stopped foo 100 & 

[2] 5037 Running foo 200 & 

>bg 5035 

5035: No such process 

>bg 5036 

[1] 5036 foo 100 & 

>/bin/kill 5036 

Job 5036 terminated by signal: Terminated 
> fg %2 

>quit 

linux> 





下 3-15 家庭 作业 8. 26 的 shell 会 话 示例 


练习 题 告 案 


8.1 进程 A 和 B 是 互相 并 发 的 ， 就 像 BB 和 C 一 样 ， 因 为 它们 各 自 的 执行 是 重生 的 ， 也 就 是 一 个 进程 在 
男 一 个 进程 结束 前 开始 。 进 程 A 和 CC 不 是 并 发 的 ， 因 为 它们 的 执行 没有 重 苹 ; A 在 C 开始 之 前 就 
结束 了 。 

8.2 在 图 8-15 的 示例 程序 中 ， 父子 进程 执行 无 关 的 指令 集合 。 然 而 ， 在 这 个 程序 中 ， 父 子 进程 执行 的 
指令 集合 是 相关 的 ， 这 是 有 可 能 的 ， 因 为 父子 进程 有 相同 的 代码 段 。 这 会 是 一 个 概念 上 的 障碍 ， 所 
以 请 确认 你 理解 了 本 题 的 答案 。 图 8-47 给 出 了 进程 图 。 

A. 这 里 的 关键 点 是 子 进程 执行 了 两 个 printf 语句 。 在 fork 返回 之 后 ， 它 执行 第 6 行 的 printf。 
然后 它 从 证 语句 中 出 来 ， 执 行 第 7 行 的 printf 语句 。 下 面 是 子 进程 产生 的 输出 : 






pli: x=2 
p2' 3=1 
B. 父 进 程 只 执行 第 7 行 的 printf: 
p2: X=0 
有 RL 沪 = 沪 电 六 =1 
， “ 子 进 程 
5 
且 沪 人 奖 寺 和 ew 
父 进 程 


main fork printf£ extt 


名 8S-47 练习 题 8.2 的 进程 图 
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3. 3 我 们 知道 序列 aebe、abcc 和 bacc 是 可 能 的 ， 因 为 它们 对 应 有 进程 图 的 拓扑 排序 (图 8-48)。 而 像 


8. 


[oe 


4 


US 
CO 


8. 7 


bcac 和 cbca 这 样 的 序列 不 对 应 有 任何 拓扑 排序 ， 因 此 它们 是 不 可 行 的 。 


已 心 


ST 
b 


main fork printf waitpid printf exit 
各 83-48 练习 题 8. 3 的 进程 图 


A. 只 简单 地 计算 进程 图 (图 8-49) 中 printf 顶点 的 个 数 就 能 确定 输出 行 数 。 在 这 里 ， 有 6 个 这 样 的 
顶点 ， 因 此 程序 会 打印 6 行 输出 。 

B. 任何 对 应 有 进程 图 的 拓扑 排序 的 输出 序列 都 是 可 能 的 。 例如: Hello、1、0、Bye、2、Bye 是 可 
能 的 。 


exit 





Bye , 
exit (2) 
Drintf printf 
Hello 0 Bye 
main wrintE fork printt waitpid printf printf exit 
图 8-19 练习 题 8.4 的 进程 图 
code/ecf/snooze.c 
1 unsigned int snooze(unsigned int secs) 1 
2 unsigned int rc = sleep(secs); 
3 
4 printf("Slept for %d of %d secs.\n", secs-rc, secs); 
return rc; 
6 J 
code/ecf/’snooze.c 
code/ecf/myecho.c 
) #include "csapp.h" 
; int main(int argc, char *argv[], char *envp[]) 
| { 
5 1 汪 
7 printf ("Command-line arguments:\n'"); 
5 for (i=0; argv[i] != NULL; i++) 
9 printat" argv[%2d] : %s\n", i, argv[i]); 
10 
1 printf ("\n'"); 
12 printf("Environment variables:\n"); 
13 for (i=0; envp[i] != NULL; i++) 
14 printt envp[%2d]: %s\n", i, envp[i]); 
15 
16 exit(0); 
7 3 
code/ecfmyecho.c 


只 要 休眠 进程 收 到 一 个 未 被 忽略 的 信号 ，sleep 困 数 就 会 提前 返回 。 但 是 ， 因 为 收 到 一 个 SIGINT 

信号 的 默认 行为 就 是 终止 进程 (图 8-26)， 我 们 必须 设置 一 个 SIGINT 处 理 程序 来 允许 sleep 铺 数 返 

回 。 处 理 程 序 简 单 地 捕获 SIGNAL， 并 将 控制 返回 给 sleep 郴 数 ， 该 郴 数 会 立即 返回 。 
code/ecf/snooze.c 


| #include "csapp.h" 


2 
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/* SIGINT handler */ 
void handler(int sig) 


{ 


return; /* Catch the signal and return */ 


} 


unsigned int snooze(unsigned int secs) 1 
unsigned int rc = sleep(secs); 


printf("Slept for %d of %d secs.\n", secs-rc, secs); 
return rc; 


} 


int main(int argc, char **argv) 工 


if (argc != 2) 1 
fprintf(stderr, "usage: %s <secs>\n", argv[0]); 


exit(0); 
上 
if (signal (SIGINT, handler) == SIG_ERR) /* Install SIGINT */ 
unix_error("signal error\n'"); /* handler */ 
(void)snooze(atoi(argv[1])):; 
exit(0).; 
} 
code/ecf/snooze.c 


这 个 程序 打印 字符 串 “213”， 这 是 卡 内 基 - 梅 隆 大 学 CS: APP 课程 的 缩写 名 。 父 进程 开始 时 打印 
“2”， 然 后 创建 子 进程 ， 子 进程 会 陷 人 一 个 无 限 循 环 。 然 后 父 进程 向 子 进程 发 送 一 个 信号 ， 并 等 待 
它 终止 。 子 进程 捕获 这 个 信号 (中 断 这 个 无 限 循环 ) ， 对 计数 器 值 (从 初始 值 2) 减 一 ， 打 印 “1”， 然 
后 终止 。 在 父 进程 回收 子 进 程 之 后 ， 它 对 计数 器 值 ( 从 初始 值 2) 加 一 ,打印 “3”， 并 且 终 止 。 


AA nN = 
秆 入 章 
$ H A P T E R 9 


虚拟 内 人 存 


一 个 系统 中 的 进程 是 与 其 他 进程 共享 CPU 和 主 存 资源 的 。 然 而 ， 共 享 主 存 会 形成 一 
些 特殊 的 挑战 。 随 着 对 CPU 需求 的 增长 ， 进 程 以 某 种 合理 的 平滑 方式 慢 了 下 来 。 但 是 如 
果 太 多 的 进程 需要 太 多 的 内 存 ， 那 么 它们 中 的 一 些 就 根本 无 法 运行 。 当 一 个 程序 没有 空间 
可 用 时 ， 那 就 是 它 运气 不 好 了 。 内 存 还 很 容易 被 破坏 。 如 果菜 个 进程 不 小 心 写 了 为 一 个 进 
程 使 用 的 内 存 ， 它 就 可 能 以 某 种 完全 和 程序 逻辑 无 关 的 令 人 迷惑 的 方式 失败 。 

为 了 更 加 有 效 地 管理 内 存 并 且 少 出 错 ， 现 代 系 统 提供 了 一 种 对 主 存 的 抽象 概念 ， 叫 做 
虚拟 内 存 (VM) 。 虚 拟 内 存 是 硬件 异 营 、 硬 件 地 址 翻译 、 主 存 、 和 磁盘 文件 和 和 内核 软 件 的 完 
美 交互 ， 它 为 每 个 进程 提供 了 一 个 大 的 、 一 致 的 和 私有 的 地 址 空间 。 通 过 一 个 很 清晰 的 机 
制 ， 虚 拟 内 存 提供 了 三 个 重要 的 能 力 : 1) 它 将 主 存 看 成 是 一 个 存储 在 磁盘 上 的 地 址 空间 的 
高 速 缓存 ， 在 主 存 中 只 保存 活动 区 域 ， 并 根据 需要 在 磁盘 和 主 存 之 间 来 回 传送 数据 ， 通 过 
这 种 方式 ， 它 高 效 地 使 用 了 主 存 。2) 它 为 每 个 进程 提供 了 一 致 的 地 址 空间 ， 从 而 简化 了 内 
存 管理 。3) 它 保护 了 每 个 进程 的 地 址 空间 不 被 其 他 进程 破坏 。 

虚拟 内 存 是 计算 机 系统 最 重要 的 概念 之 一 。 它 成 功 的 一 个 主要 原因 就 是 因为 它 是 沉默 
地 、 自 动 地 工作 的 ， 不 需要 应 用 程序 员 的 任何 干涉 。 既 然 虚 拟 内 存在 幕后 工作 得 如 此 之 
好 ， 为 什么 程序 员 还 需要 理解 它 呢 ? 有 以 下 几 个 原因 : 

@ 虚拟 内 存 是 核心 的 。 虚 拟 内 存 遍 及 计算 机 系统 的 所 有 层面 ， 在 硬件 异 凋 、 汇 编 厂 、 

链接 器 、 加 载 器 、 共 享 对 象 、 文 件 和 进程 的 设计 中 扮演 着 重要 角色 。 理 解 虚拟 内 存 
将 帮助 你 更 好 地 理解 系统 通常 是 如 何 工 作 的 。 

e@ 虚拟 内 存 是 强大 的 。 虚 拟 内 存 给 予 应 用 程序 强大 的 能 力 ， 可 以 创建 和 销毁 内 存 片 
(chunk) 、 将 内 存 片 映射 到 磁盘 文件 的 某 个 部 分 ， 以 及 与 其 他 进程 共享 内 存 。 比 如 ， 
你 知道 可 以 通过 读 写 内 存 位置 读 或 者 修改 一 个 磁盘 文件 的 内 容 吗 ? 或 者 可 以 加 载 一 
个 文件 的 内 容 到 内 存 中 ， 而 不 需要 进行 任何 显 式 地 复制 吗 ? 理解 虚拟 内 存 将 帮助 你 
利用 它 的 强大 功能 在 应 用 程序 中 添加 动力 。 

e@ 虚拟 内 存 是 危险 的 。 每 次 应 用 程序 引用 一 个 变量 、 间 接 引 用 一 个 指针 ， 或 者 调用 一 个 

诸如 malloc 这 样 的 动态 分 配 程序 时 ， 它 就 会 和 虚拟 内 存 发 生 交互 。 如 果 虚 拟 内 存 使 
用 不 当 ， 应 用 将 遇 到 复杂 和 危险 的 与 内 存 有 关 的 错误 。 例 如 ， 一 个 带 有 错误 指针 的 程序 
可 以 立即 崩 当 于 “上 段 错 误 ” 或 者 “保护 错误 ”， 它 可 能 在 月 江 之 前 还 默默 地 运行 了 几 
个 小 时 ， 或 者 是 最 令 人 惊慌 地 ， 运 行 完 成 却 产生 不 正确 的 结果 。 理 解 虚拟 内 存 以 及 详 
如 malloc 之 类 的 管理 虚拟 内 存 的 分 配 程序 ， 可 以 帮助 你 避免 这 些 销 误 。 

这 一 章 从 两 个 角度 来 看 虚拟 内 存 。 本 章 的 前 一 部 分 描述 虚拟 内 存 是 如 何 工作 的 。 后 一 
部 分 描述 的 是 应 用 程序 如 何 使 用 和 管理 虚拟 内 存 。 无 可 避免 的 事实 是 虚拟 内 存 很 复杂 ， 本 
章 很 多 地 方 都 反映 了 这 一 点 。 好 消息 就 是 如 果 你 掌握 这 些 细节 ， 你 就 能 够 手工 模拟 一 个 小 
系统 的 虚拟 内 存 机 制 ， 而 且 虚 拟 内 存 的 概念 将 永远 不 再 神秘 。 

第 二 部 分 是 建立 在 这 种 理解 之 上 的 ， 向 你 展示 了 如 何在 程序 中 使 用 和 管理 虚拟 内 存 。 
你 将 学 会 如 何 通 过 显 式 的 内 存 映 射 和 对 像 malloc 程序 这 样 的 动态 内 存 分 配器 的 调用 来 管 
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理 虚 拟 内 存 。 你 还 将 了 解 到 C 程序 中 的 大 多 数 常 见 的 与 内 存 有 关 的 错误 ， 并 学 会 如 何 避 免 
它们 的 出 现 。 


9.1 物理 和 虚拟 寻 址 


计算 机 系统 的 主 存 被 组 织 成 一 个 由 M 个 连续 的 字 节 大 小 的 单元 组 成 的 数组 。 每 字 节 
都 有 一 个 唯一 的 物理 地 址 (Physical Address， 主 存 
PA)。 第 一 个 字 节 的 地 址 为 0， 接 下 来 的 字 节 地 址 
为 1， 再 下 一 个 为 2， 依 此 类 推 。 给 定 这 种 简单 的 物理 地 址 
结构 ，CPU 访问 内 存 的 最 自然 的 方式 就 是 使 用 物 
理 地 址 。 我 们 把 这 种 方式 称 为 物理 寻 址 (physical 
addressing)。 图 9-1 展示 了 一 个 物理 寻 址 的 示例 ， 
该 示例 的 上 下 文 是 一 条 加 载 指令 ， 它 读 取 从 物理 
地 址 4 处 开始 的 4 字 节 字 。 当 CPU 执行 这 条 加 载 
指令 时 ,会 生成 一 个 有 效 物 理 地 址 ， 通 过 内 存 总 
线 ， 把 它 传递 给 主 存 。 主 存 取 出 从 物理 地 址 4 处 数据 字 
开始 的 4 字 节 字 ， 并 将 它 返 回 给 CPU，CPU 会 将 J | 和 全 二 
它 存放 在 一 个 寄存 器 里 。 

早期 的 PC 使 用 物理 寻 址 ， 而 且 诸如 数字 信号 处 理 器 、 租 人 式微 控制 器 以 及 Cray 超级 
计算 机 这 样 的 系统 仍然 继续 使 用 这 种 寻 址 方式 。 然 而 ,现代 处 理 器 使 用 的 是 一 种 称 为 虚拟 

数据 字 


寻 址 (virtual addressing) 的 寻 址 形式 ， 参 见 图 9-2， 
图 9-2 一 个 使 用 虚拟 寻 址 的 系统 


使 用 虚拟 寻 址 ，CPU 通过 生成 一 个 虚拟 地 址 (Virtual Address，VA) 来 访问 主 存 ， 这 
个 虚拟 地 址 在 被 送 到 内 存 之 前 先 转 换 成 适当 的 物理 地 址 。 将 一 个 虚拟 地 址 转换 为 物理 地 址 
的 任务 叫做 地 址 翻译 (address translation)。 就 像 异 常 处 理 一 样 ， 地 址 翻译 需要 CPU 硬件 
和 操作 系统 之 间 的 紧密 合作 。CPU 芯片 上 叫做 内 存 管理 单元 (Memory Management Unit， 
MMU ) 的 专用 硬件 ， 利 用 存放 在 主 存 中 的 查询 表 来 动态 翻译 虚拟 地 址 ， 该 表 的 内 容 由 操作 
系统 管理 。 


9.2 地 址 空间 
地 址 空间 (address space) 是 一 个 非 负 整数 地 址 的 有 序 集 合 : 


人 





~ 
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{Os 1 ,2，…} 
如 果 地 址 空间 中 的 整数 是 连续 的 ， 那么 我 们 说 它 是 一 个 线性 地 址 室 间 (linear address 
space) 。 为 了 简化 讨论 ， 我 们 总 是 假设 使 用 的 是 线性 地 址 空间 。 在 一 个 带 虚拟 内 存 的 系统 
中 ，CPU 从 一 个 有 N= 二 2 个 地 址 的 地 址 空间 中 生成 虚拟 地 址 ， 这 个 地 址 空间 称 为 虚拟 地 
址 空间 (virtual address space);: 
ey We 

一 个 地 址 空间 的 大 小 是 由 表示 最 大 地 址 所 需要 的 位 数 来 描述 的 。 例 如 ， 一 个 包含 N= 
2" 个 地 址 的 虚拟 地 址 空间 就 叫做 一 个 位 地 址 空间 。 现 代 系 统 通常 支持 32 位 或 者 64 位 虚 
拟 地 址 空间 。 

一 个 系统 还 有 一 个 物理 地 址 空间 (physical address space)， 对 应 于 系统 中 物理 内 存 的 
M 丫 学 节 ， 

(Os laa ms MM —1} 
M 不 要 求 是 2 的 帘 ， 但 是 为 了 人 简化 讨论 ， 我 们 假设 M 王 2”。 

地 址 空间 的 概念 是 很 重要 的 ， 因 为 它 清楚 地 区 分 了 数据 对 象 ( 字 节 ) 和 它们 的 属性 (地 
址 )。 一 旦 认识 到 了 这 种 区 别 ， 那 么 我 们 就 可 以 将 其 推广 ， 人 允许 每 个 数据 对 象 有 多 个 独立 
的 地 址 ， 其 中 每 个 地 址 都 选 自 一 个 不 同 的 地 址 空间 。 这 就 是 虚拟 内 存 的 基本 思想 。 主 存 中 
的 每 字 节 都 有 一 个 选 自 虚拟 地 址 空间 的 虚拟 地 址 和 一 个 选 自 物理 地 址 空间 的 物理 地 址 。 
小 站 练习 题 9. 1 完成 下 面 的 表格 ， 填 写 缺 失 的 条 目 ， 并 且 用 适当 的 整数 取代 每 个 问号 。 

利用 下 列 单 位 区 = 二 2 以 kKilo， 千 》，M 一 (1mega， 光 ; 再 万》，G 一 29(giga， 乎 兆 ， 

十 亿 )， 本 二 2™(tera。 万 亿 )，P 二 2”"”(peta， 千 和 于 兆 )， 或 EE==2”(exa， 千 兆 兆 )。 


虚拟 地 址 位 数 (n) 虚拟 地 址 数 (N) 最 大 可 能 的 虚拟 地 址 






| 
| 
| 
| 
ER 


9.3 ”虚拟 内 存 作 为 缓存 的 工具 


概念 上 而 言 ， 虚 拟 内 存 被 组 织 为 一 个 由 存放 在 磁盘 上 的 NN 个 连续 的 字 节 大 小 的 单元 
组 成 的 数组 。 每 字 节 都 有 一 个 唯一 的 虚拟 地 址 ， 作 为 到 数组 的 索引 。 人 磁盘 上 数组 的 内 容 被 
缓存 在 主 存 中 。 和 存储 器 层次 结构 中 其 他 缓存 一 样 ， 磁 盘 ( 较 低层 ) 上 的 数据 被 分 割 成 块 ， 
这 些 块 作为 磁盘 和 主 存 ( 较 高 层 ) 之 间 的 传输 单元 。VM 系统 通过 将 虚拟 内 存 分 割 为 称 为 虚 
拟 页 (Virtual Page，VP) 的 大 小 固定 的 块 来 处 理 这 个 问题 。 每 个 虚拟 页 的 大 小 为 P= 二 2* 衬 
节 。 类 似 地 ， 物 理 内 存 被 分 割 为 物理 页 (Physical Page，PP)， 大 小 也 为 P 字 市 (物理 页 也 
被 称 为 页 帧 (page frame) ) 。 

在 任意 时 刻 ， 虚 拟 页 面 的 集合 都 分 为 三 个 不 相交 的 子 集 : 

@ 未 分 配 的 ; VM 系统 还 未 分 配 ( 或 者 创建 ) 的 页 。 未 分 配 的 块 没有 任何 数据 和 它们 相 

关联 ， 因 此 也 就 不 占用 任何 磁盘 空间 。 

e@ 缓存 的 : 当前 已 缓存 在 物理 内 存 中 的 已 分 配 页 。 

e@ 未 缓存 的 : 未 缓存 在 物理 内 存 中 的 已 分 配 页 。 

图 9-3 的 示例 展示 了 一 个 有 8 个 虚拟 页 的 小 虚拟 内 存 。 虚 拟 页 0 和 3 还 没有 被 分 配 ， 
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因此 在 磁盘 上 还 不 存在 。 虚 拟 页 1、4 和 6 被 缓存 在 物理 内 存 中 。 页 2、5 和 7 已 经 被 分 配 
了 ， 但 是 当前 并 未 缓存 在 主 存 中 。 
虚拟 内 存 物理 内 存 
0 





虚拟 页 (VP) 物理 页 (PP ) 
存储 在 磁盘 上 缓存 在 DRAM 中 
图 9-3 一 个 YM 系统 是 如 何 使 用 主 存 作为 缓存 的 


9. 3. 1 DRAM 缓存 的 组 织 结构 


为 了 有 助 于 清晰 理解 存储 层次 结构 中 不 同 的 缓存 概念 ， 我 们 将 使 用 术语 SRAM 缓存 
来 表示 位 于 CPU 和 主 存 之 间 的 Ll1、L2 和 L3 高 速 缓 存 ， 并 且 用 术语 DRAM 缓存 来 表示 
虚拟 内 存 系 统 的 缓存 ， 它 在 主 存 中 缓存 虚拟 页 。 

在 存储 层次 结构 中 ，DRAM 缓存 的 位 置 对 它 的 组 织 结 构 有 很 大 的 影响 。 回 想 一 下 ， 
DRAM 比 SRAM 要 慢 大 约 10 信 ， 而 人 磁 盘 要 比 DRAM 慢 大 约 100 000 多 倍 。 因 此 ， 
DRAM 缓存 中 的 不 命中 比 起 SRAM 缓存 中 的 不 命中 要 昂贵 得 多 ， 这 是 因为 DRAM 缓存 
不 命中 要 由 磁盘 来 服务 ， 而 SRAM 缓存 不 命中 通常 是 由 基于 DRAM 的 主 存 来 服务 的 。 而 
且 ， 从 磁盘 的 一 个 而 区 读 取 第 一 个 字 节 的 时 间 开 销 比 起 读 这 个 扇 区 中 连续 的 字 节 要 慢 大 约 
100 000 倍 。 归 根 到 底 ，DRAM 缓存 的 组 织 结构 完全 是 由 巨大 的 不 命中 开销 驱动 的 。 

因为 大 的 不 命中 处 罚 和 访问 第 一 个 字 节 的 开销 ， 虚 拟 页 往往 很 大 ， 通 常 是 4KB 一 
2MB。 由 于 大 的 不 命中 处 罚 ，DRAM 缓存 是 全 相 联 的 ， 即 任何 虚拟 页 都 可 以 放置 在 任何 
的 物理 页 中 。 不 命中 时 的 替换 策略 也 很 重要 ， 因 为 替换 错 了 虚拟 页 的 处 罚 也 非常 之 高 。 因 
此 ， 与 硬件 对 SRAM 缓存 相 比 ， 操 作 系 统 对 DRAM 缓存 使 用 了 更 复杂 精密 的 替换 算法 。 
(这 些 蔡 换 算法 超出 了 我 们 的 讨论 范围 ) 。 最 后 ， 因 为 对 磁盘 的 访问 时 间 很 长 ，DRAM 组 
存 总 是 使 用 写 回 ， 而 不 是 直 写 。 


9. 3.2 页 表 


同 任何 缓存 一 样 ， 虚 拟 内 存 系统 必须 有 某 种 方法 来 判定 一 个 虚拟 页 是 否 缓存 在 
DRAM 中 的 某 个 地 方 。 如 果 是 ， 系 统 还 必须 确定 这 个 虚拟 页 存放 在 哪个 物理 页 中 。 如 果 
不 命中 ， 系 统 必须 判断 这 个 虚拟 页 存放 在 磁盘 的 哪个 位 置 ， 在 物理 内 存 中 选择 一 个 牺牲 
页 ， 并 将 虚拟 页 从 磁盘 复制 到 DRAM 中 ， 替 换 这 个 牺牲 页 。 

这 些 功能 是 由 软 硬 件 联合 提供 的 ， 包 括 操作 系统 软件 、MMU 内 存 管理 单元 ) 中 的 地 
址 翻译 人 刹 件 和 一 个 存放 在 物理 内 存 中 叫做 页 表 (page table) 的 数据 结构 ， 页 表 将 虚拟 页 映 
射 到 物理 页 。 每 次 地 址 翻译 硬件 将 一 个 虚拟 地 址 转换 为 物理 地 址 时 ， 都 会 读 取 页 表 。 操 作 
系统 负责 维护 页 表 的 内 容 ， 以 及 在 磁盘 与 DRAM 之 间 来 回 传 送 页 。 

图 9-4 展示 了 一 个 页 表 的 基本 组 织 结构 。 页 表 就 是 一 个 页 表 条 目 (Page Table Entry， 
PTE) 的 数组 。 虚 拟 地 址 空间 中 的 每 个 页 在 页 表 中 一 个 固定 偏 移 量 处 都 有 一 个 PITE。 为 了 


第 9 人间 虐 拟 内 站 563 


我 们 的 目的 ， 我 们 将 假设 每 个 PTE 是 由 一 个 有 效 位 (valid bit) 和 一 个 nn 位 地 址 字段 组 成 
的 。 有 效 位 表明 了 该 虚拟 页 当前 是 否 被 
缓存 在 DRAM 中 。 如 果 设 置 了 有 效 位 ， 
那么 地 址 字段 就 表示 DRAM 中 相应 的 
物理 页 的 起 始 位置 ， 这 个 物理 页 中 缓存 
了 该 虚拟 页 。 如 果 没 有 设置 有 效 位 ， 那 
么 一 个 空地 址 表示 这 个 虚拟 页 还 未 被 分 
配 。 和 否则 ， 这 个 地 址 就 指向 该 虚拟 页 在 





磁盘 上 的 起 始 位 置 。 a 
图 9-4 gee 莹 下 一 着 寿 基 夫 常 驻 内 存 的 页 表 、 人 人、 
ia (DRAM) NA wa | 

虚拟 页 和 4 个 物理 页 的 系统 的 页 表 。 四 b> 

个 虚拟 页 (VP 1、VP 2、VP 4 和 YP “Tw | 

7) 当前 被 缓存 在 DRAM 中 。 两 个 页 

(VP 0 和 VP 5) 还 未 被 分 配 ， 而 剩 下 的 图 9-4 页 表 


页 (VP 3 和 VP 6) 已 经 被 分 配 了 ， 但 是 当前 还 未 被 缓存 。 图 9-4 中 有 一 个 要 点 要 注意 ， 因 
为 DRAM 缓存 是 全 相 联 的 ， 所 以 任意 物理 页 都 可 以 包含 任意 虚拟 页 。 
仿 弹 练习 题 9.2 确定 下 列 虚 拟 地 址 大 小 (n) 和 页 大 小 (P) 的 组 合 所 需要 的 PTE 数量 ， 





9. 3.3 页 命中 


考虑 一 下 当 CPU 想 要 读 包 含 在 VP 2 中 的 虚拟 内 存 的 一 个 字 时 会 发 生 什么 (图 9-5)，VP 
2 被 缓存 在 DRAM 中 。 使 用 我 们 将 在 9.6 节 中 详细 摘 述 的 一 种 技术 ， 地 址 翻译 硬件 将 虐 
拟 地 址 作为 一 个 索引 来 定位 PTE 2， 并 从 内 存 中 读 取 它 。 因 为 设置 了 有 效 位 ， 那 么 地 址 翻 
译 硬件 就 知道 VP 2 是 缓存 在 内 存 中 的 了 。 所 以 它 使 用 PTE 中 的 物理 内 存 地 址 (该 地 址 指 
向 PP 1 中 缓存 页 的 起 始 位 置 )， 构 造 出 这 个 字 的 物理 地 址 。 


物理 内 存 
虚拟 地 址 





I 
( DRAM ) ee 


图 9-5 VM 页 命中 。 对 VP 2 由 一 个 字 的 引用 就 会 命中 


9.3.4 缺 页 


在 虚拟 内 存 的 习惯 说 法 中 ，DRAM 缓存 不 命中 称 为 缺 页 (page fault)。 图 9-6 展示 了 
在 缺 页 之 前 我 们 的 示例 页 表 的 状态 。CPU 引用 了 VP 3 中 的 一 个 字 ，VP 3 并 未 缓存 在 
DRAM 中 。 地 址 翻译 硬件 从 内 存 中 读 取 PTE 3， 从 有 效 位 推断 出 VP 3 未 被 缓存 ， 并 且 触 
发 一 个 缺 页 异常 。 缺 页 异常 调用 内 核 中 的 缺 页 异 背 处 理 程 序 ， 该 程序 会 选择 一 个 牺牲 页 ， 
在 此 例 中 就 是 存放 在 PP 3 中 的 VP 4。 如 果 VP 4 已 经 被 修改 了 ， 那么 内 核 就 会 将 它 复制 
回 磁 盘 。 无 论 哪 种 情况 ， 内 核 都 会 修改 VP 4 的 页 表 条 目 ， 反映 出 VP 4 不 再 缓存 在 主 存 中 
这 一 事实 。 





物理 内 存 
虚拟 地 址 物理 页 号 或 (DRAM ) 
有 效 位 ”磁盘 地 址 PP0 
PTE 0 


常 驻 内 存 的 页 表 人、 下、 
(DRAM ) “ WW 


图 96 VM 缺 页 (之 前 )。 对 VP 3 中 的 字 的 引用 会 不 命中 ， 从 而 触发 了 缺 页 


接 下 来 ， 内 核 从 磁盘 复制 VP 3 到 内 存 中 的 PP 3， 更 新 PTE 3， 随 后 返回 。 当 异常 处 
理 程 序 返回 时 ， 它 会 重新 启动 导致 缺 页 的 指令 ， 该 指令 会 把 导致 缺 页 的 虚拟 地 址 重 发 送 到 
地 址 翻译 人 硬件。 但 是 现在 ，VP 3 已 经 缓存 在 主 存 中 了 ， 那 么 页 命中 也 能 由 地 址 翻译 硬件 
正常 处 理 了 。 图 9-7 展示 了 在 缺 页 之 后 我 们 的 示例 页 表 的 状态 。 
物理 内 存 
虚拟 地 址 物理 页 号 或 (DRAM ) 


有 效 位 ”磁盘 地 址 
PTEO 





常 驻 内 存 的 页 表 人 、 ~、 
(DRAM ) TO 


加 47 VM 缺 页 (之 后 )。 缺 页 处 理 程序 选择 VP 4 作为 牺牲 页 ， 并 从 磁盘 上 用 VP 3 的 副本 取代 它 。 在 缺 页 
处 理 程序 重新 启动 导致 缺 页 的 指令 之 后 ， 该 指令 将 从 内 存 中 正常 地 读 取 字 ， 而 不 会 再 产生 有 异 稼 
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虚拟 内 存 是 在 20 世纪 60 年 代 早 期 发 明 的 ， 远 在 CPU- 内 存 之 间 差 距 的 加 大 引发 产生 
SRAM 缓存 之 前 。 因 此 ， 虚 拟 内 存 系统 使 用 了 和 SRAM 缓存 不 同 的 术语 ， 即 使 它们 的 许 
多 概念 是 相似 的 。 在 虚拟 内 存 的 习惯 说 法 中 ， 块 被 称 为 页 。 在 磁盘 和 内 存 之 间 传 送 页 的 活 
动 叫 做 交换 (swapping) 或 者 页 面 调度 (paging)。 页 从 磁盘 换 入 (或 者 页 面 调 入 )DRAM 和 从 
DRAM 换 出 (或 者 页 面 调 出 ) 磁 盘 。 一 直 等 待 ， 直 到 最 后 时 刻 ， 也 就 是 当 有 不 命中 发 生 时 ， 
才 换 入 页面 的 这 种 策略 称 为 按 需 页 面 调 度 (demand paging)。 也 可 以 采用 其 他 的 方法 ， 例 
如 尝试 着 预测 不 命中 ， 在 页 面 实际 被 引用 之 前 就 换 入 页 面 。 然 而 ， 所 有 现代 系统 都 使 用 的 
是 按 需 页 面 调度 的 方式 。 


9.3.5 分 配 页 面 


图 9-8 展示 了 当 操 作 系统 分 配 一 个 
新 的 虚拟 内 存 页 时 对 我 们 示例 页 表 的 
影响 ， 人 例如， 调用 malloc 的 结果 。 在 
这 个 示例 中 ，VP5 的 分 配 过 程 是 在 磁 
盘 上 创建 空间 并 更 新 PTE 5， 使 它 指 





向 磁盘 上 这 个 新 创建 的 页 面 。 mw 
9.3.6 又 是 局 部 性 救 了 我 们 RE 

当 我 们 中 的 许多 人 都 了 解 了 虚拟 De 5 | 
内 存 的 概念 之 后 ,我 们 的 第 一 印象 通 
常 是 它 的 效率 应 该 是 非常 低 。 因 为 不 
命中 处 罚 很 大 ， 我 们 担心 页 面 调度 会 图 98 分 配 一 个 新 的 虚拟 页 面 。 内核 在 磁盘 上 分 配 VP 5， 
破坏 程序 性 能 。 实 际 上 ， 虚 拟 内 存 工 并 且 将 PTE 5 指向 这 个 新 的 位 置 


作 得 相当 好 ， 这 主要 归功 于 我 们 的 老 朋 友 局 部 性 (locality)。 

尽管 在 整个 运行 过 程 中 程序 引用 的 不 同 页 面 的 总 数 可 能 超出 物理 内 存 总 的 大 小 ， 但 是 局 部 
性 原则 保证 了 在 任意 时 刻 ， 程 序 将 趋向 于 在 一 个 较 小 的 活动 页 面 (active page) 集 合 上 工作 ， 这 个 
集合 叫做 工作 集 (working set) 或 者 常 驻 集合 (resident set) 。 在 初始 开销 ， 也 就 是 将 工作 集 页 面 调 
度 到 内 存 中 之 后 ， 接 下 来 对 这 个 工作 集 的 引用 将 导致 命中 ， 而 不 会 产生 额外 的 磁盘 流量 。 

只 要 我 们 的 程序 有 好 的 时 间 局 部 性 ， 虚 拟 内 存 系统 就 能 工作 得 相当 好 。 但 是 ， 当 然 不 
是 所 有 的 程序 都 能 展现 良好 的 时 间 局 部 性 。 如 果 工 作 集 的 大 小 超出 了 物理 内 存 的 大 小 ， 那 
么 程序 将 产生 一 种 不 幸 的 状态 ， 叫 做 封 动 (thrashing)， 这 时 页 面 将 不 断 地 换 进 换 出 。 虽 然 
虚拟 内 存 通 和 常 是 有 效 的 ， 但 是 如 果 一 个 程序 性 能 慢 得 像 息 一 样 ， 那 么 聪明 的 程序 员 会 考虑 
是 不 是 发 生 了 抖动 。 


臣下 统计 缺 页 次 数 


你 可 以 利用 Linux 的 getrusage 函数 监测 缺 页 的 数量 (以 及 许多 其 他 的 信息 )。 


9.4 虚拟 内 存 作 为 内 存 管 理 的 工具 

在 上 一 节 中 ， 我 们 看 到 虚拟 内 存 是 如 何 提供 一 种 机 制 ， 利 用 DRAM 缓存 来 自 通常 更 
大 的 虚拟 地 址 空间 的 页 面 。 有趣 的 是 ， 一 些 早 期 的 系统 ， 比 如 DEC PDP-11/70， 文 持 的 
是 一 个 比 物理 内 存 更 小 的 虚拟 地 址 空间 。 然 而 ， 虚 拟 地 址 仍然 是 一 个 有 用 的 机 制 ， 因 为 它 
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大 大 地 简化 了 内 存 管 理 ， 并 提供 了 一 种 自然 的 保护 内 存 的 方法 。 


到 目前 为 止 ， 我 们 都 假设 有 一 个 单 
独 的 页 表 ， 将 一 个 虚拟 地 址 空 a 
物理 地 址 空间 。 实 际 上 ， 操 作 系 统 为 每 
个 进程 提供 了 一 个 独立 的 页 表 ， 因 而 也 
就 是 一 个 独立 的 虚拟 地 址 空间 。 图 9-9 

展示 了 基本 思想 。 在 这 个 示例 中 ， 进 程 

i 的 页 表 将 V P1 映射 到 PP 2，VP 2 映 

射 到 PP 7。 相 似 地 ， 进 程 j 的 页 表 将 

VP 1 映射 到 PP 7，VP 2 映射 到 PP 

i, ， 多 个 虚拟 页 面 可 以 映射 到 同 
共享 物理 页 面 上 。 


ee x 间 的 结 


虚拟 地 址 空间 0 





VM 如 何 为 进程 提供 独立 的 地 址 空间 。 操 作 系 统 
为 系统 中 的 每 个 进程 都 维护 一 个 独立 的 页 表 


合 ， 对 系统 中 内 存 的 使 用 和 管理 造成 了 深远 的 


影响 。 特 别 地 ，VM 傈 化 了 链接 和 加 载 、 代码 和 数据 共 kK 译 ， 以 及 应 用 程序 的 内 存 分 配 。 
e 简化 链接 。 独 立 的 地 址 空间 允许 每 个 进程 的 内 存 映 像 使 用 相同 的 基本 格式 ,而 不 管 


代码 和 数据 实际 存放 在 物理 内 存 的 何 处 。 


例如 ， 像 我 们 在 图 8-13 中 看 到 的 ， 一 个 给 


定 的 Linux 系统 上 的 每 个 进程 都 使 用 类 似 的 内 存 格式 。 对 于 64 位 地 址 空间 ， 代 码 


段 总 是 从 虚拟 地 址 0x400000 开始 。 


数据 段 跟 在 代码 段 之 后 ， 中 间 有 一 段 符合 要 求 


的 对 齐 空 折 。 栈 占据 用 户 进 程 地 址 空间 最 高 的 部 分 ， 并 向 下 生长 ， 这 样 的 一 致 性 极 
大 地 简化 了 链接 需 的 设计 和 实现 ， 人 允许 链接 怖 生成 完全 链接 的 可 执行 文件 ， 这 些 可 
执行 文件 是 独立 于 物理 内 存 中 代码 和 数据 的 最 终 位 置 的 。 

e 简化 加 载 。 虚 拟 内 存 还 使 得 容易 向 内 存 中 加 载 可 执行 文件 和 共享 对 象 文件 。 要 把 目 
标 文 件 中 .text 和 .data 节 加 载 到 一 个 新 创建 的 进程 中 ，Linux 加 载 需 为 代码 和 数 
据 段 分 配 虚 拟 页 ， 把 它们 标记 为 无 效 的 ( 即 未 被 缓存 的 )， 将 页 表 条 目 指 向 目标 文件 
中 适当 的 位 置 。 有 趣 的 是 ， 加 载 器 从 不 从 磁盘 到 内 存 实 际 复制 任何 数据 。 在 每 个 页 
初次 被 引用 时 ， 要 么 是 CPU 取 指 令 时 引用 的 ， 要 么 是 一 条 正在 执行 的 指令 引用 一 


个 内 存 位 置 时 引用 的 ， 虚 拟 内 存 系统 会 按 


照 需 要 目 动 地 调 人 数据 页 。 


将 一 组 连续 的 虚拟 页 映射 到 任意 一 个 文件 中 的 任意 位 置 的 表示 法 称 作 内 存 映 射 (mem- 
ory mapping)。Linux 提供 一 个 称 为 mmap 的 系统 调用 ， 人 允许 应 用 程序 自己 做 内 存 映 
射 。 我 们 会 在 9. 8 节 中 更 详细 地 描述 应 用 级 内 存 上 映射 。 


e 向 化 共享 。 独 立地 址 空间 为 操作 系统 提供 了 


一 个 管理 用 户 进程 和 操作 系统 自身 之 间 


共享 的 一 致 机 制 。 一 般 而 言 ， 每 个 进程 都 有 上 自己 私有 的 代码 、 数 据 、 堆 以 及 栈 区 
域 ， 是 不 和 其 他 进程 共 孚 的 。 在 这 种 情况 中 ， 操 作 系统 创 建 页 表 ， 将 相应 的 虚拟 页 


映射 到 不 连续 的 物理 页 面 。 


然而 ， 在 一 些 情况 中 ， 还 是 需要 进程 来 共享 代码 和 数据 。 例 如 ， 每 个 进程 必须 调用 相同 
的 操作 系统 内 核 代码 ， 而 每 个 C 程序 都 会 调用 C 标准 库 中 的 程序 ， 比 如 printf。 操 作 系 统 
通过 将 不 同 进程 中 适当 的 虚拟 页 面 映射 到 相同 的 物理 页 面 ， 从 而 安排 多 个 进程 共享 这 部 分 代 
码 的 一 个 副本 ， 而 不 是 在 每 个 进程 中 都 包括 单独 的 内 核 和 C 标准 库 的 副本 ， 如 图 9-9 所 示 。 

e 简化 内 存 分 配 。 虚 拟 内 存 为 向 用 户 进 程 提供 一 个 简单 的 分 配额 外 内 存 的 机 制 。 当 一 


个 运行 在 用 户 进 程 中 的 程序 要 求 额外 的 堆 空 


x 闻 时 (如 调用 malloc 的 结果 )， 操 作 系 


统 分 配 一 个 适当 数字 (例如 A) 个 连续 的 虚拟 内 存 页 面 ， 并 且 将 它们 映射 到 物理 内 存 
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中 任意 位 置 的 & 个 任意 的 物理 页 面 。 由 于 页 表 工 作 的 方式 ， 操 作 系统 没有 必要 分 配 
& 个 连续 的 物理 内 存 页 面 。 页 面 可 以 随机 地 分 散在 物理 内 存 中 。 


9.5 虚拟 内 存 作 为 内 存 保护 的 工具 


任何 现代 计算 机 系统 必须 为 操作 系统 提供 手段 来 控制 对 内 存 系统 的 访问 。 不 应 该 允许 
一 个 用 户 进 程 修改 它 的 只 读 代码 段 。 而 且 也 不 应 该 允许 它 读 或 修改 任何 内 核 中 的 代码 和 数 
据 结 构 。 不 应 该 允许 它 读 或 者 写 其 他 进程 的 私有 内 存 ， 并 且 不 允许 它 修改 任何 与 其 他 进程 
共享 的 虚拟 页 面 ， 除 非 所 有 的 共享 者 都 显 式 地 允许 它 这 么 做 (通过 调用 明确 的 进程 间 通 信 
系统 调用 ) 。 

就 像 我 们 所 看 到 的 ， 提 供 独 立 的 地 址 空间 使 得 区 分 不 同 进程 的 私有 内 存 变 得 容易 。 但 
是 ， 地 址 翻译 机 制 可 以 以 一 种 自然 的 方式 扩展 到 提供 更 好 的 访问 控制 。 因 为 每 次 CPU 生 
成 一 个 地 址 时 ， 地 址 翻译 硬件 都 会 读 一 个 PTE， 所 以 通过 在 PTE 上 添加 一 些 额 外 的 许可 
位 来 控制 对 一 个 虚拟 页 面 内 容 的 访问 十 分 简单 。 图 9-10 展示 了 大 致 的 思想 。 
带 许 可 位 的 页 表 
SUP READ WRITE ”地址 





进程 i: 


WEQ: | 析 | 是 | 和 理 | 理 9 pz 
进程 j: VP 1 -本 | 于 二 是 | 


图 9-10 用 虚拟 内 存 来 提供 页 面 级 的 内 存 保护 


在 这 个 示例 中 ， 每 个 PTE 中 已 经 添加 了 三 个 许可 位 。SUP 位 表示 进程 是 否 必须 运行 
在 内 核 ( 超 级 用 户 ) 模 式 下 才能 访问 该 页 。 运 行 在 内 核 模式 中 的 进程 可 以 访问 任何 页 面 ， 但 
是 运行 在 用 户 模式 中 的 进程 只 允许 访问 那些 SUP 为 0 的 页 面 。READ 位 和 WRITE 位 控 
制 对 页 面 的 读 和 写 访问 。 例 如 ， 如 果 进 程 i 运行 在 用 户 模 式 下 ， 那 么 它 有 读 VP 0 和 读 写 
VP 1 的 权限 。 然 而 ， 不 允许 它 访问 VP 2。 

如 果 一 条 指令 违反 了 这 些许 可 条 件 ， 那 么 CPU 就 触发 一 个 一 般 保护 故障 ， 将 控制 传 
递 给 一 个 内 核 中 的 异常 处 理 程序 。Linux shell 一 般 将 这 种 异常 报告 为 “上 段 错误 (segmenta- 


tion fault)”。 


9.6 地 址 翻译 


一 节 讲 述 的 是 地 址 翻译 的 基础 知识 。 我 们 的 目标 是 让 你 了 解 硬 件 在 文 持 虚拟 内 存 中 
的 角色 ， 并 给 出 足够 多 的 细 市 使 得 你 可 以 亲手 演示 一 些 具体 的 示例 。 不 过 ， 要 记 住 我 们 省 
略 了 大 量 的 细节 ， 尤 其 是 和 时 序 相 关 的 细 广 ， 虽然 这 些 细节 对 便 件 设计 者 来 说 是 非常 重要 
的 ， 但 是 超出 了 我 们 讨论 的 范围 。 图 9-11 概括 了 我 们 在 这 节 里 将 要 使 用 的 所 有 符号 ， 供 
读者 参考 。 
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描 述 
N= 2" 虚拟 地 址 空间 中 的 地 址 数量 
物理 地 址 空间 中 的 地 址 数量 


页 的 大 小 〈《 字 节 ) 


朋 训 块 内 的 字 节 俩 移 量 





图 9-11 地 址 翻译 符号 小 结 


形式 上 来 说 ， 地 址 翻译 是 一 个 NN 元 素 的 虚拟 地 址 空间 (VAS) 中 的 元 素 和 一 个 M 元 素 

的 物理 地 址 空间 (PAS) 中 元 素 之 间 的 映射 ， 
MAP:VAS-> PASUSL 

这 里 
A 如 果 虚 拟 地 址 A 处 的 数据 在 PAS 的 物理 地 址 A 处 
名 如 果 虚 拟 地 址 AA 处 的 数据 不 在 物理 内 存 中 

图 9-12 展示 了 MMU 如 何 利 用 页 表 来 实现 这 种 映射 。CPU 中 的 一 个 控制 寄存 器 ， 页 表 
基 址 寄存 器 (Page Table Base Register，PTBR) 指 问 当 前 页 表 。n 位 的 虚拟 地 址 包含 两 个 部 分 : 
一 个 户 位 的 虚拟 页 面 偏 移 (Virtual Page Offset，VPO) 和 一 个 (2 一 力 ) 位 的 虚拟 页 号 (Virtual 


MAP(A) = 


虚拟 地 址 
页 表 基 址 1 一 ] p p-l 0 
i 
(PTBR ) 


有 效 位 ”物理 页 号 (PPN ) 


到 页 表 中 EE | 
的 索引 
如 果 有 效 位 =0， 
那么 页 面 就 不 在 
存储 器 中 ( 缺 页 ) 7 一 ] pp-l 0 
物理 页 偏 移 量 ( PPO ) 
物理 地 址 


图 9-12 使 用 页 表 的 地 址 翻译 
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Page Number，VPN) 。MMU 利用 VPN 来 选择 适当 的 PTE。 例 如 ，VPN 0 选择 PTE 0， 
VPN 1 选择 PTE 1， 以 此 类 推 。 将 页 表 条 目 中 物理 页 号 (Physical Page Number，PPN) 和 虚拟 
地 址 中 的 VPO 串联 起 来 ， 就 得 到 相应 的 物理 地 址 。 注意 ， 因 为 物理 和 虚拟 页 面 都 是 已 字 节 
的 ， 所 以 物理 页 面 偏 移 (Physical Page Offset，PPO) 和 VPO 是 相同 的 。 

图 9-13a 展示 了 当 页 面 命中 时 ，CPU 硬件 执行 的 步骤 。 

@ 第 1 步 : 处 理 器 生成 一 个 虚拟 地 址 ， 并 把 它 传 送 给 MMTU 。 

e 第 2 步 : MMU 生成 PTE 地 址 ， 并 从 高 速 缓存 / 主 存 请 求 得 到 它 。 

e 第 3 步 : 高 速 缓存 / 主 存 向 MMU 返回 PTE。 

e 第 4 和 步 : MMU 构造 物理 地 址 ， 并 把 它 传送 给 高 速 缓存 / 主 存 。 

e 第 5 步 : 高 速 缓存 / 主 存 返回 所 请 求 的 数据 字 给 处 理 需 。 





b ) 缺 页 


由 9-13 页 面 命 中 和 缺 页 的 操作 图 (VA: 虚拟 地 址 。PTEA: 页 表 条 目地 址 。 
PTE: 页 表 条 目 。PA: 物理 地 址 ) 


页 面 命中 完全 是 由 硬件 来 处 理 的 ， 与 之 不 同 的 是 ， 处 理 缺 页 要 求 硬件 和 操作 系统 内 核 
协作 完成 ， 如 图 9-13b 所 示 。 

@ 第 1 步 到 第 3 步 :， 和 图 9-13a 中 的 第 1 步 到 第 3 步 相同 。 

e@ 第 4 步 ， PTE 中 的 有 效 位 是 零 ， 所 以 MMU 触发 了 一 次 异常 ， 传 递 CPU 中 的 控制 
到 操作 系统 内 核 中 的 缺 页 异常 处 理 程 序 。 

e 第 5 步 : 缺 页 处 理 程 序 确定 出 物理 内 存 中 的 牺牲 页 ， 如 果 这 个 页 面 已 经 被 修改 了 ， 
则 把 它 换 出 到 磁盘 。 

e 第 6 步 : 缺 页 处 理 程序 页 面 调 人 新 的 页 面 ， 并 更 新 内 存 中 的 PTE。 
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e 第 7 步 : 缺 页 处 理 程序 返回 到 原来 的 进程 ， 再 次 执行 导致 缺 页 的 指令 。CPU 将 引起 缺 
页 的 虚拟 地 址 重新 发 送 给 MMU。 因 为 虚拟 页 面 现 在 缓存 在 物理 内 存 中 ， 所 以 就 会 命 
中 ,在 MMU 执行 了 图 9-13b 中 的 步骤 之 后 ， 主 存 就 会 将 所 请 求 字 返回 给 处 理 器 。 

评 融 练习 题 9.3 给 定 一 个 32 位 的 虚拟 地 址 空间 和 一 个 24 位 的 物理 地 址 ， 对 于 下 面 的 页 
面 大 小 P， 确 定 VPN、VPO、PPN 和 PPO 中 的 位 数 . 





9.6.1 结合 高 速 缓存 和 虚拟 内 存 


在 任何 既 使 用 虚拟 内 存 又 使 用 SRAM 高 速 缓 存 的 系统 中 ， 都 有 应 该 使 用 虚拟 地 址 还 
是 使 用 物理 地 址 来 访问 SRAM 高 速 缓存 的 问题 。 尽 管 关 于 这 个 折 中 的 详细 讨论 已 经 超出 
了 我 们 的 讨论 范围 ， 但 是 大 多 数 系统 是 选择 物理 寻 址 的 。 使 用 物理 寻 址 ， 多 个 进程 同时 在 
高 速 缓 存 中 有 存储 块 和 共享 来 自 相 同 虚拟 页 面 的 块 成 为 很 简单 的 事情 。 而 且 ， 高速 缓存 无 
需 处 理 保护 问题 ， 因 为 访问 权限 的 检查 是 地 址 翻译 过 程 的 一 部 分 。 

图 9-14 展示 了 一 个 物理 寻 址 的 高 速 缓 存 如 何 和 虚拟 内 存 结合 起 来 。 主 要 的 思路 是 地 
址 翻译 发 生 在 高 速 缓存 查找 之 前 。 注 意 ， 页 表 条 目 可 以 缓存 ， 就 像 其 他 的 数据 字 一 样 。 


CPU 芯片 





图 9-14 将 VM 与 物理 寻 扯 的 高 速 缓存 结合 起 来 (VA: 虚拟 地 址 。 
PTEA: 页 表 条 目地 址 。PTE: 页 表 和 条目。PA: 物理 地 址 ) 


9.6.2 利用 TLB 加 速 地 址 翻译 


正如 我 们 看 到 的 ， 每 次 CPU 产生 一 个 虚拟 地 址 ，MMU 就 必须 查阅 一 个 PTE， 以 便 
将 虚拟 地 址 翻译 为 物理 地 址 。 在 最 糟糕 的 情况 下 ， 这 会 要 求 从 内 存 多 取 一 次 数据 ， 代 价 是 
几 十 到 几 百 个 周期 。 如 果 PTE 碰巧 缓存 在 Ll 中 ,那么 开销 就 下 降 到 1 个 或 2 个 周期 。 然 
而 ， 许多 系统 都 试图 消除 即使 是 这 样 的 开销 ,它们 在 MMU 中 包括 了 一 个 关于 PTE 的 小 
的 缓存 ， 称 为 翻译 后 备 缓冲 器 (Translation Lookaside Buffer，TLB) 。 

TLB 是 一 个 小 的 、 虚 拟 寻 址 的 缓存 ， 其 ”二 1 P+L p+i-l p p-l 
中 每 一行 都 保存 着 一 个 由 单个 PTE 组 成 的 所 
TLB 通常 有 高 度 的 相 联 度 。 如 图 9-15 所 示 ， VPN 
用 于 组 选择 和 行 匹配 的 索引 和 标记 字段 是 从 ” 图 9-15 虚拟 地 址 中 用 以 访问 TLB 的 组 成 部 分 


第 9 章 虚拟 内 疗 571 


虚拟 地 址 中 的 虚拟 页 号 中 提取 出 来 的 。 如 果 TLB 有 T= 二 2' 个 组 ， 那 么 TLB 索引 (TLBI) 是 由 
VPN 的 t 个 最 低位 组 成 的 ， 而 TLB 标记 (TLBT) 是 由 VPN 中 剩余 的 位 组 成 的 。 

图 9-16a 展示 了 当 TLB 命中 时 (通常 情况 ) 所 包括 的 步骤 。 这 里 的 关键 点 是 ， 所 有 的 地 
址 翻译 步骤 都 是 在 芯片 上 的 MMU 中 执行 的 ， 因 此 非常 快 。 

e 第 1 步 CPU 产生 一 个 虚拟 地 址 。 

@ 第 2 步 和 第 3 步 : MMU 从 TLB 中 取出 相应 的 PTE。 

e 第 4 步 : MMU 将 这 个 虚拟 地 址 翻译 成 一 个 物理 地 址 ， 并 且 将 它 发 送 到 高 速 缓存 / 主 存 。 

e 第 5 步 : 高 速 缓存 / 主 存 将 所 请 求 的 数据 字 返 回 给 CPU 。 

当 TLB 不 命中 时 ，MMU 必须 从 Ll 缓存 中 取出 相应 的 PTE， 如 图 9-16b 所 示 。 新 取 
出 的 PTE 存放 在 TLB 中 ， 可 能 会 覆盖 一 个 已 经 存在 的 条 目 。 





(5) 数据 
i b ) TLB 不 命中 
图 9-16 TLB 命中 和 不 命中 的 操作 图 


9.6.3 多 级 页 表 


到 目前 为 止 ， 我 们 一 直 假 设 系统 只 用 一 个 单独 的 页 表 来 进行 地 址 翻译 。 但 是 如 果 我 们 
有 一 个 32 位 的 地 址 空间 、4KB 的 页 面 和 一 个 4 字 市 的 PTE， 那 么 即使 应 用 所 引用 的 只 是 
虚拟 地 址 空间 中 很 小 的 一 部 分 ， 也 总 是 需要 一 个 4MB 的 页 表 驻 留 在 内 存 中 。 对 于 地 址 空 
间 为 64 位 的 系统 来 说 ， 问 题 将 变 得 更 复杂 。 

用 来 压缩 页 表 的 常用 方法 是 使 用 层次 结构 的 页 表 。 用 一 个 具体 的 示例 是 最 容易 理解 这 
个 思想 的 。 假 设 32 位 虚拟 地 址 空间 被 分 为 4KB 的 页 ， 而 每 个 页 表 条 目 都 是 4 字 节 。 还 假 
设 在 这 一 时 刻 ， 虚 拟 地 址 空间 有 如 下 形式 : 内 存 的 前 2K 个 页 面 分 配给 了 代码 和 数据 ， 接 
下 来 的 6K 个 页 面 还 未 分 配 ， 再 接 下 来 的 1023 个 页 面 也 未 分 配 ， 接 下 来 的 1 个 页 面 分 配给 
了 用 户 栈 。 图 9-17 展示 了 我 们 如 何 为 这 个 虚拟 地 址 空间 构造 一 个 两 级 的 页 表层 次 结构 。 

一 级 页 表 中 的 每 个 PTE 负责 映射 虚拟 地 址 空间 中 一 个 4MB 的 片 (chunk)， 这 里 每 一 
片 都 是 由 1024 个 连续 的 页 面 组 成 的 。 比 如 ，PTE 0 映射 第 一 片 ，PTE 1 映射 接 下 来 的 一 
片 ， 以 此 类 推 。 假 设 地 址 空间 是 4GB，1024 个 PTE 已 经 足够 覆盖 整个 空间 了 。 

如 果 片 i 中 的 每 个 页 面 都 未 被 分 配 ， 那 么 一 级 PTE i 就 为 空 。 例 如 ， 图 9-17 中 ， 片 2 一 7 
是 未 被 分 配 的 。 然 而 ， 如 果 在 片 i 中 至 少 有 一 个 页 是 分 配 了 的 ， 那 么 一 级 PTE i 就 指 问 一 
个 二 级 页 表 的 基 址 。 例 如 ， 在 图 9-17 中, 片 0、1 和 8 的 所 有 或 者 部 分 已 被 分 配 ， 所 以 它 
们 的 一 级 PTE 就 指向 二 级 页 表 。 
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WA 


已 分 配 的 2K 个 代码 和 
数据 VM 页 













PTE 3 (null) 
PTE 4 (null) 






6K 个 未 分 配 的 VM 页 






1023 个 空 
PTE 





1023 个 未 分 配 的 页 
1 个 已 分 配 的 用 做 栈 的 VM 页 
可 9-17 一 个 两 级 页 表层 次 结构 。 注 意 地 址 是 从 上 往 下 增加 的 


二 级 页 表 中 的 每 个 PTE 都 负责 映射 一 个 4KB 的 虚拟 内 存 页 面 ， 就 像 我 们 查看 只 有 一 
级 的 页 表 一 样 。 注 意 ， 使 用 4 字 节 的 PTE， 每 个 一 级 和 二 级 页 表 都 是 4KB 字 节 ， 这 刚好 
和 一 个 页 面 的 大 小 是 一 样 的 。 

这 种 方法 从 两 个 方面 减少 了 内 存 要 求 。 第 一 ， 如 果 一 级 页 表 中 的 一 个 PTE 是 空 的 ， 
那么 相应 的 二 级 页 表 就 根本 不 会 存在 。 这 代表 着 一 种 巨大 的 潜在 市 约 ， 因 为 对 于 一 个 典型 
的 程序 ，4GB 的 虚拟 地 址 空间 的 大 部 分 都 会 是 未 分 配 的 。 第 二 ， 只 有 一 级 页 表 才 需要 总 是 
在 主 存 中 ; 虚拟 内 存 系统 可 以 在 需要 时 创建 、 页 面 调 人 或 调 出 二 级 页 表 ， 这 就 减少 了 主 存 
的 压力 ; 只 有 最 经 常 使 用 的 二 级 页 表 才 需要 组 存在 主 存 中 。 

图 9-18 描述 了 使 用 级 页 表层 次 结构 的 地 址 翻译 。 虚 拟 地 址 被 划分 成 为 k 个 VPN 和 
1 个 VPO。 每 个 VPN i 都 是 一 个 到 第 i 级 页 表 的 索引 ， 其 中 1 二 1 二 &。 第 7 级 页 表 中 的 每 
个 PTE，1 志 ;二 一 1， 都 指 癌 第 j 十 1 级 的 某 个 页 表 的 基 址 。 第 上 级 页 表 中 的 每 个 PTE 包 
含 某 个 物理 页 面 的 PPN， 或 者 一 个 磁盘 块 的 地 址 。 为 了 构造 物理 地 址 ， 在 能 够 确定 PPN 
之 前 ，MMTU 必须 访问 & 个 PTE。 对 于 只 有 一 级 的 页 表 结 构 ，PPO 和 VPO 是 相同 的 。 


虚拟 地 址 
n-l p-1 0 
VPN1 Jo VeN2 | -+ |® VPNk_| VPo 
= = 
1 级 页 表 2 级 页 表 大 级 页 表 
ma 天 
LL 
= 
ls 
m—l 万 一 ] 0 
PPN _PPO _ 
物理 地 址 


名 9-18 使 用 & 级 页 表 的 地 址 翻译 
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访问 个 PIE， 第 一 眼看 上 去 昂贵 而 不 切实 际 。 然 而 ， 这 里 TLB 能 够 起 作用 ， 正 是 
通过 将 不 同 层次 上 页 表 的 PTE 缓存 起 来 。 实 际 上 ， 带 多 级 页 表 的 地 址 翻译 并 不 比 单 级 页 
表 慢 很 多 。 


9.6.4 绽 合 : 端 到 端的 地 址 翻译 


在 这 一 市 里 ， 我 们 通过 一 个 具体 的 端 到 端的 地 址 翻译 示例 ， 来 综合 一 下 我 们 刚 学 过 的 
这 些 内 容 。 这 个 示例 运行 在 有 一 个 TLB 和 Ll d-cache 的 小 系统 上 。 为 了 保证 可 管理 性 ， 
我 们 做 出 如 下 假设 : 

e 内 存 是 按 字 节 寻 址 的 。 

e@ 内 存 访问 是 针对 1 字 节 的 字 的 (不 是 4 字 节 的 字 ) 。 

e 虚拟 地 址 是 14 位 长 的 (2 一 14) 。 

e 物理 地 址 是 12 位 长 的 (m= 二 12)， 

e 页 面 大 小 是 64 字 节 (P==64)。 

e TLB 是 四 路 组 相 联 的 ， 总 共有 16 个 条 目 。 

e Ll1 d-cache 是 物理 寻 址 、 直 接 映射 的 ， 行 大 小 为 4 字 节 ， 而 总 共有 16 个 组 。 

图 9-19 展示 了 虚拟 地 址 和 物理 地 址 的 格式 。 因 为 每 个 页 面 是 2* = 二 64 字 节 ， 所 以 虚拟 
地 址 和 物理 地 址 的 低 6 位 分 别 作 为 VPO 和 PPO。 虚 拟 地 址 的 高 8 位 作为 YPN。 物 理 地 址 
的 高 6 位 作为 PPN，。 


3 人 ll 10 9 8 7 6 5 4 3 2 ] 0 
et[CTTTTTTTTTLTTTT 


人 YEU <=———==> 





( 虚拟 页 号 ) ( 虚拟 页 偏 移 ) 
和 和 1 届 
物理 地 址 
+ 一 PIN EE 一 
( 物理 页 号 ) ( 物理 页 仿 移 ) 
图 9-19 小 内 存 系统 的 寻 址 。 假 设 14 位 的 虚拟 地 址 (n= 二 14)， 


12 位 的 物理 地 址 (m 二 12) 和 64 字 节 的 页 面 (P 二 64) 


图 9-20 展示 了 小 内 存 系 统 的 一 个 快照 ， 包 括 TLB( 图 9-20a)、 页 表 的 一 部 分 (图 9- 
20b) 和 Ll 高 速 缓存 (图 9-20c)。 在 TLB 和 高 速 缓存 的 图 上 面 ,我 们 还 展示 了 访问 这 些 设 
备 时 硬件 是 如 何 划分 虚拟 地 址 和 物理 地 址 的 位 的 。 

e TLB。TLB 是 利用 VPN 的 位 进行 虚拟 寻 址 的 。 因 为 TLB 有 4 个 组 ， 所 以 VPN 的 

低 2 位 就 作为 组 案 引 (TLBI)。VPN 中 剩 下 的 高 6 位 作为 标记 (TLBT)， 用 来 区 别 
可 能 映射 到 同一 个 TLB 组 的 不 同 的 VPN， 

@ 页 表 。 这 个 页 表 是 一 个 单 级 设计 ， 一 共有 2 一 256 个 页 表 条 目 (PTE)。 然 而 ， 我们 
只 对 这 些 条 目 中 的 开头 16 个 感 兴趣 。 为 了 方便 ， 我 们 用 索引 它 的 VPN 来 标识 每 个 
PTE; 但 是 要 记 住 这 些 VPN 并 不 是 页 表 的 一 部 分 ， 也 不 储存 在 内 存 中 。 另 外 ， 注 
意 每 个 无 效 PTE 的 PPN 都 用 一 个 破 折 号 来 表示 ， 以 加 强 一 个 概念 : 无 论 刚 好 这 里 
存储 的 是 什么 位 什 ， 都 是 没有 任何 意义 的 。 

高 速 缓存 。 和 直接 映射 的 缓存 是 通过 物理 地 址 中 的 字段 来 寻 址 的 。 因 为 每 个 块 都 是 4 
字 节 ， 所 以 物理 地 址 的 低 2 位 作为 块 偏 移 (CO)。 因 为 有 16 组， 所 以 接 下 来 的 4 位 
就 用 来 表示 组 索引 (CI) 。 剩 下 的 6 位 作为 标记 (CCT) 。 
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和 


3 这 让 让 和 名 和 起 计 和 于 昂 了 闻 








时 站 VEO =——=3 


位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 





a) TLB: 四 组 ，16 个 条 目 ， 四 路 组 相 联 


VPN PPN 有 效 位 VPN PPN 有 效 位 





b) 页 表 : 只 展示 了 前 16 个 PTE 











索引 标记 位 有 效 位 块 0 块 1 块 2 块 3 





c) 高 速 缓存 : 16 个 组 ，4 字 节 的 块 ， 直 接 映 射 
图 9-20 ”小 内 存 系统 的 TLB、 页 表 以 及 缓存 。TLB、 页 表 和 缓存 中 所 有 的 值 都 是 十 六 进 制 表示 的 


给 定 了 这 种 初始 化 设 定 ， 让 我 们 来 看 看 当 CPU 执行 一 条 读 地 址 0x03d4 处 字 节 的 加 载 
指令 时 会 发 生 什 么 。( 回 想 一 下 我 们 假定 CPU 读 取 1 字 节 的 字 ， 而 不 是 4 字 节 的 字 。) 为 了 
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开始 这 种 手工 的 模拟 ， 我 们 发 现 写 下 虚拟 地 址 的 各 个 位 ， 标 识 出 我 们 会 需要 的 各 种 字段 ， 
并 确定 它们 的 十 六 进 制 值 ， 是 非常 有 帮助 的 。 当 硬件 解码 地 址 时 ， 它 也 执行 相似 的 任务 。 


- | . 10 


VA = 0x03d4 0 
OxOf Ox14 


开始 时 ，MMU 从 虚拟 地 址 中 抽取 出 YPN(0x0F)， 并且 检查 TLB， 看 它 是 否 因 为 前 
面 的 某 个 内 存 引 用 缓存 了 PTE 0x0F 的 一 个 副本 。TLB 从 VPN 中 抽取 出 TLB 索引 (0x03) 
和 TLB 标记 (0x3)， 组 0x3 的 第 二 个 条 目 中 有 效 匹 配 ， 所 以 命中 ， 然 后 将 缓存 的 PPN 
(0x0D) 返 回 给 MMTU 。 

如 果 TLB 不 命中 ， 那 么 MMU 就 需要 从 主 存 中 取出 相应 的 PTE。 然 而 ， 在 这 种 情况 
中 ， 我 们 很 幸运 ，TLB 会 命中 。 现 在 ，MMU 有 了 形成 物理 地 址 所 需要 的 所 有 东西 。 它 通 
过 将 来 自 PTE 的 PPN(0x0D) 和 来 自 虚拟 地 址 的 VPO(0x14) 连 接 起 来 ， 这 就 形成 了 物理 地 
址 (0x354)。 

接 下 来 ，MMTU 发 送 物理 地 址 给 缓存 ， 缓 存 从 物理 地 址 中 抽取 出 缓存 仿 移 CO(0x0)、 
缓存 组 索引 CI(0x5) 以 及 缓存 标记 CT(0x0D)。 





Ox0d Ox05 


PA = 0x354 ~ by 
PPO 
Ox0Od Ox14 


因为 组 0x5 中 的 标记 与 CT 相 匹 配 ， 所 以 缓存 检测 到 一 个 命中 ， 读 出 在 偏 移 量 CO 处 
的 数据 字 节 (0x36)， 并 将 它 返 回 给 MMU， 随 后 MMU 将 它 传递 回 CPU 。 
翻译 过 程 的 其 他 路 径 也 是 可 能 的 。 例 如 ， 如 果 TLB 不 命中 ， 那 么 MMU 必须 从 页 表 
中 的 PTE 中 取出 PPN。 如 果 得 到 的 PTE 是 无 效 的 ， 那 么 就 产生 一 个 缺 页 ， 内 核 必须 调 人 
合适 的 页 面 ， 重 新 运行 这 条 加 载 指令 。 男 一 种 可 能 性 是 PTE 是 有 效 的 , 但 是 所 需要 的 内 
存 块 在 缓存 中 不 命中 。 
练习 题 9.4 说 明 9.6.4 节 中 的 示例 内 存 系 统 是 如 何 将 一 个 虚拟 地 址 翻译 成 一 个 物理 
地 址 和 访问 缓存 的 。 对 于 给 定 的 虚拟 地 址 ， 指 明 访 问 的 TLB 条 目 、 物 理 地 址 和 返回 
的 缓存 字 节 值 。 指 出 是 否 发 生 了 TLB 不 命中 ， 是 否 发 生 了 缺 页 ， 以 及 是 否 发 生 了 组 
存 不 命中 。 如 果 是 缓存 不 命中 ， 在 “返回 的 缓存 字 节 ” 栏 中 输入 “一 "”。 如 果 有 缺 页 ， 
则 在 “PPN” 一 栏 中 输入 “一 ”， 并 且 将 C 部 分 和 D 部 分 空 着 。 
虚拟 地 址 : 0x03d7 
A. 虚拟 地 址 格式 





I i 村 20 9 8 1 6 4 3 2 1 0 


B. 地 址 翻译 
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| 
| 
ne | 








参数 
VPN 
TLB 命 中 ? (是 / 否 ) 
缺 页 ? 〈 是 / 否 ) 
C. 物理 地 址 格式 


D. 物理 内 存 引 用 











$m | 
| 
| 
| 
#3 | 


9. 7 案例 研究 : Intel Core i7/Linux 内 存 系 统 


我 们 以 一 个 实际 系统 的 案例 研究 来 总 结 我 们 对 虚拟 内 存 的 讨论 : 一 个 运行 Linux 的 
Intel Core i7。 虽 然 底层 的 Haswell 微 体系 结构 允许 完全 的 64 位 虚拟 和 物理 地 址 空间 ， 而 
现在 的 (以 及 可 预见 的 未 来 的 )Core i7 实现 支持 48 位 (256TB) 虚 拟 地 址 空间 和 52 位 (4PB) 
物理 地 址 空间 ， 还 有 一 个 兼容 模式 ， 支 持 32 位 (4GB) 虚 拟 和 物理 地 址 空间 。 

9-21 给 出 了 Core i7 内 存 系统 的 重要 部 分 。 处 理 器 封装 (processor package) 包 括 四 
个 核 、 一 个 大 的 所 有 核 共享 的 L3 高 速 缓存 ， 以 及 一 个 DDR3 内 存 控制 器 。 每 个 核 包 含 一 
个 层次 结构 的 TLB、 一 个 层次 结构 的 数据 和 指令 高 速 缓存 ， 以 及 一 组 快速 的 点 到 点 链 路 ， 
这 种 链 路 基于 QuickPath 技术 ， 是 为 了 让 一 个 核 与 其 他 核 和 外 部 I/O 桥 直接 通信 。TLB 
是 虚拟 寻 址 的 ， 是 四 路 组 相 联 的 。L1、L2 和 L3 高 速 缓存 是 物理 寻 址 的 ， 块 大 小 为 64 字 
节 。L1 和 L2 是 8 路 组 相 联 的 ， 而 L3 是 16 路 组 相 联 的 。 页 大 小 可 以 在 启动 时 被 配置 为 
4KB 或 4MB。Linux 使 用 的 是 4KB 的 页 。 


9.7.1 Core i7 地 址 翻译 


图 9-22 总 结 了 完整 的 Core i7 地 址 翻译 过 程 ， 从 CPU 产生 虚拟 地 址 的 时 刻 一 直到 来 
目 内 存 的 数据 字 到 达 CPU。Core i7 采用 四 级 页 表层 次 结构 。 每 个 进程 有 它 自己 私有 的 页 
表层 次 结构 。 当 一 个 Linux 进程 在 运行 时 ， 虽 然 Core i7 体系 结构 允许 页 表 换 进 换 出 ,但 
是 与 已 分 配 了 的 页 相关 联 的 页 表 都 是 驻 留 在 内 存 中 的 。CR3 控制 寄存 器 指向 第 一 级 页 表 
(L1) 的 起 始 位 置 。CR3 的 值 是 每 个 进程 上 下 文 的 一 部 分 ， 每 次 上 下 文 切换 时 ，CR3 的 值 
都 会 被 恢复 。 
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分 MMU | 

bl ( 地 址 翻译 ) 

L1 d-cache Ll i-cache LI d-TLB Ll i-TLB 
32 KB，8 路 32 KB，8 路 64 个 条 目 ，4 路 128 个 条 目 ，4 路 | | 


L2 统一 高 速 缓存 L2 统一 TLB 
256KB，8 路 512 个 条 目 ，4 路 





QuickPath 互 连 -全 到 其 他 核 
| 到 JO 桥 


| 
Wo DDR3 存储 器 控制 器 
/ 和 ( 所 有 的 核 共享 ) : 
主 存 


图 9-21 Core 17 的 内 存 系 统 


32/64 
L2、L3 和 主 存 
虚拟 地 址 (VA ) 


36 12 
VPN VPO 不 
YPN | veo a 不 命中 
32 4 
"pi L1 d-cache 
LI ww | nw 
生生 二 和 | FEEFEFFEFEH— 
| ED 人 一 
不 命中 
ET Ht Pi le Ry EO WA Se WE 
Ll TLB ( 16 组 ,4 个 条 目 / 组 ) 兽 卫 天 面 证 通 刘 让 
40 656. 


9 9 9 9 40 12 
my [mo er [cc 
物理 地 址 
国 国 | 可 | 量 和 


页 表 


图 9-22 Core i7 地 址 翻译 的 概况 。 为 了 简化 没有 显示 i-cache、i-TLB 和 L2 统一 TLB 
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图 9-23 给 出 了 第 一 级 、 第 二 级 或 第 三 级 页 表 中 条 目的 格式 。 当 P=1 时 (Linux 中 就 
总 是 如 此 )， 地 址 字段 包含 一 个 40 位 物理 页 号 (PPN)， 它 指向 适当 的 页 表 的 开始 处 。 注 
意 ， 这 强加 了 一 个 要 求 ， 要 求 物理 页 表 4KB 对 齐 。 


63 62 5251 12 11 ae 3 了 1 0 
xD | 未 合用 |。 页 表 物理 基地 址 。。 | 未 全 用 |G | 号 | | A | cp |wr|usjaw|e 


0s 可 用 (磁盘 上 的 页 表 位 置 ) p=0 
















| 

| 了 P | 于 表 在 物理 内 中 (1), 在 (0) 
RW | 对 于 所 有 可 访问 页 ， 只 该 或 者 谈 写 访问 权限 
Us | 对 于 所 有 可 访问 页 ， 用 户 或 超级 用 户 (内核) 模式 访问 权限 
WT | 了 两 表 的 直 配 或 写 回 级 存货 咯 
cp 
A | \ 
rs 










字段 
CE | 
U/S 日 
WT 
ET 


能 /不 能 从 这 个 PTE 可 访问 的 所 有 页 中 取 指 令 
图 9-23 第 一 级 、 第 二 级 和 第 三 级 页 表 条 目 格 式 。 每 个 条 目 引 用 一 个 4KB 子 页 表 


图 9-24 给 出 了 第 四 级 页 表 中 条 目的 格式 。 当 了 =1， 地 址 字段 包括 一 个 40 位 PPN， 
它 指向 物理 内 存 中 某 一 页 的 基地 址 。 这 又 强加 了 一 个 要 求 ， 要 求 物理 页 4KB 对 齐 。 
63 62 525] 12 11 98 7 6 5 4 2 1 0 


3 
xD | 未 全 用 |。 页 表 掀 再 闫 地 址 。 | 未 合用 | G | 0 | D | A |cp |wrjusjew|P-t 
OR | 













D5。 | 修改 位 (向 MMU 在 记 和 写 时 设置， 册 软 件 清除 
”XpD ”| 能 /不 能 从 这 个 子 页 中 取 指令 


图 9-24 第 四 级 页 表 条 目的 格式 。 每 个 条 目 引 用 一 个 4KB 子 页 


PTE 有 三 个 权限 位 ， 控 制 对 页 的 访问 。R/W 位 确定 页 的 内 容 是 可 以 读 写 的 还 是 只 读 
的 。U/S 位 确定 是 否 能 够 在 用 户 模式 中 访问 该 页 ， 从 而 保护 操作 系统 内 核 中 的 代码 和 数据 


| RE 
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不 被 用 户 程序 访问 。XD( 禁 止 执行 ) 位 是 在 64 位 系统 中 引入 的 ， 可 以 用 来 禁止 从 某 些 内 存 
页 取 指 令 。 这 是 一 个 重要 的 新 特性 ， 通 过 限制 只 能 执行 只 读 代码 段 ， 使 得 操作 系统 内 核 降 
低 了 缓冲 区 溢出 攻击 的 风险 。 

当 MMU 翻译 每 一 个 虚拟 地 址 时 ， 它 还 会 更 新 另外 两 个 内 核 缺 页 处 理 程 序 会 用 到 的 
位 。 每 次 访问 一 个 页 时 ，MMTU 都 会 设置 A 位 ， 称 为 引用 位 (reference bit) 。 内 核 可 以 用 
这 个 引用 位 来 实现 它 的 页 替换 算法 。 每 次 对 一 个 页 进行 了 写 之 后 ，MMU 都 会 设置 D 位 ， 
又 称 修改 位 或 脏 位 (dirty bit)。 修 改 位 告诉 内 核 在 复制 替换 页 之 前 是 否 必 须 写 回 牺 牲 页 。 
内 核 可 以 通过 调用 一 条 特殊 的 内 核 模式 指令 来 清除 引用 位 或 修改 位 。 

图 9-25 给 出 了 Core 17 MMU 如 何 使 用 四 级 的 页 表 来 将 虚拟 地 址 翻译 成 物理 地 址 。36 
位 VPN 被 划分 成 四 个 9 位 的 片 ， 每 个 片 被 用 作 到 一 个 页 表 的 偏 移 量 。CR3 寄存 器 包含 L1 
页 表 的 物理 地 址 。VPN 1 提供 到 一 个 Ll PET 的 偏 移 量 ， 这 个 PTE 包含 L2 页 表 的 基地 
址 。VPN 2 提供 到 一 个 L2 PTE 的 偏 移 量 ， 以 此 类 推 。 


9 9 9 9 12 
VPN | VPN3 VPN4 虚拟 地 址 










CR3 
Ll PT 的 
物理 地 址 
,。 到 物理 和 虚拟 
| | 
每 个 条 目 每 个 条 目 每 个 条 目 
512 GB 区 域 1 GB 区 域 2 MB 区 域 
40 12 
PPN PPO | 物理 地 址 
图 9-25 ”Core i7 页 表 翻 译 (PT: 页 表 ，PTE: 页 表 条 目 ，VPN: 虚拟 页 号 ，VPO: 虚拟 页 偏 移 ， 
PPN: 物理 页 号 ，PPO: 物理 页 偏 移 量 。 图 中 还 给 出 了 这 四 级 页 表 的 Linux 名 字 ) 
EE3 优化 地 址 翻译 


在 对 地 址 翻译 的 讨论 中 ， 我 们 描述 了 一 个 顺序 的 两 个 步骤 的 过 程 ，1)MMU 将 虚拟 
地 址 翻译 成 物理 地 址 ，2) 将 物理 地 址 传送 到 L1 高 速 缓存 。 然 而 ， 实 际 的 硬件 实现 使 用 
了 一 个 灵活 的 技巧 ， 允 许 这 些 步 骤 部 分 重 登 ， 因 此 也 就 加 速 了 对 Ll 高 速 缓存 的 访问 。 
例如 ， 页 面 大 小 为 4KB 的 Core 17 系统 上 的 一 个 虚拟 地 址 有 12 位 的 VPO， 并 且 这 些 位 
和 相应 物理 地 址 中 的 PPO 的 12 位 是 相同 的 。 因 为 八路 组 相 联 的 、 物 理 寻 址 的 Ll 高 速 
缓存 有 64 个 组 和 大 小 为 64 字 节 的 缓存 块 ， 每 个 物理 地 址 有 6 个 (logz64) 缓 存 偏 移 位 和 
6 个 (logz64) 索 引 位 。 这 12 位 恰好 符合 虚拟 地 址 的 VPO 部 分 ， 这 绝 不 是 偶然 ! 当 CPU 
需要 翻译 一 个 虚拟 地 址 时 ， 它 就 发 送 VPN 到 MMU， 发 送 VPO 到 高 速 L1 缓存 。 当 MMU 
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向 TLB 请 求 一 个 页 表 条 目 时 ，L1 高 速 缓存 正 忙 着 利用 VPO 位 查找 相应 的 组 ， 并 读 出 
这 个 组 里 的 8 个 标记 和 相应 的 数据 字 。 当 MMU 从 TLB 得 到 PPN 时 ， 缓 存 已 经 准备 好 
试 着 把 这 个 PPN 与 这 8 个 标记 中 的 一 个 进行 匹配 了 。 


9.7.2 Linux 虚拟 内 存 系 统 


一 个 虚拟 内 存 系统 要 求 硬件 和 内 核 软 件 之 间 的 紧密 协作 。 版 本 与 版 本 之 间 细 节 都 不 尽 
相同 ， 对 此 完整 的 阐释 超出 了 我 们 讨论 的 范围 。 但 是 ， 在 这 一 小 节 中 我 们 的 目标 是 对 
Linux 的 虚拟 内 存 系 统 做 一 个 描述 ， 使 你 能 够 大 致 了 解 一 个 实际 的 操作 系统 是 如 何 组 织 虚 
拟 内 存 ， 以 及 如 何 处 理 缺 页 的 。 

Linux 为 每 个 进程 维护 了 一 个 单独 的 
虚拟 地 址 空间 ， 形 式 如 图 9-26 所 示 。 我 们 
已 经 多 次 看 到 过 这 幅 图 了 ， 包 括 它 那些 熟 
悉 的 代码 、 数 据 、 堆 、 共 享 库 以 及 栈 段 。 
既然 我 们 理解 了 地 址 翻译 ， 就 能 够 填 人 更 
多 的 关于 内 核 虚拟 内 存 的 细节 了 ， 这 部 分 
虚拟 内 存 位 于 用 户 栈 之 上 。 

内 核 虚 拟 内 存 包 含 内 核 中 的 代码 和 数 
据 结构 。 内 核 虚拟 内 存 的 某 些 区 域 被 映射 
到 所 有 进程 共享 的 物理 页 面 。 例 如 ， 每 个 
进程 共享 内 核 的 代码 和 全 局 数据 结构 。 有 


与 进程 相关 的 数据 结构 
(例如 ， 页 表 、task 和 
mm 结构 ， 内 核 栈 ) 


内 核 虚 拟 
内 存 


共享 库 的 内 存 映 射 区 域 


趣 的 是 ，Linux 也 将 一 组 连续 的 虚拟 页 面 
(大 小 等 于 系统 中 DRAM 的 总 量 ) 映 射 到 
相应 的 一 组 连续 的 物理 页 面 。 这 就 为 内 核 
提供 了 一 种 便利 的 方法 来 访问 物理 内 存 中 
任何 特定 的 位 置 ， 例如， 当 它 需要 访问 页 
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~ | cm | 
(通过 malloc 分 配 的 ) 
未 初始 化 的 数据 ( .bss ) 
已 初始 化 数据 ( .data ) 





0x40000000 一 w 代码 ( .text ) 






表 ， 或 在 一 些 设备 上 执行 内 存 映 射 的 I/O 
操作 ， 而 这 些 设备 被 映射 到 特定 的 物理 内 
存 位 置 时 。 图 9-26 一 个 Linux 进程 的 虚拟 内 存 

内 核 虚 拟 内 存 的 其 他 区 域 包含 每 个 进程 都 不 相同 的 数据 。 比 如 说 ， 页 表 、 内 核 在 进程 
的 上 下 文中 执行 代码 时 使 用 的 栈 ， 以 及 记录 虚拟 地 址 空间 当前 组 织 的 各 种 数据 结构 。 

1.Linux 虚拟 内 存 区 域 

Linux 将 虚拟 内 存 组 织 成 一 些 区 域 ( 也 叫做 段 ) 的 集合 。 一 个 区 域 (area) 就 是 已 经 存在 
着 的 (已 分 配 的 ) 虚 拟 内 存 的 连续 片 (chunk)， 这 些 页 是 以 某 种 方式 相关 联 的 。 例 如 ， 代 码 
段 、 数 据 段 、 堆 、 共 享 库 段 ， 以 及 用 户 栈 都 是 不 同 的 区 域 。 每 个 存在 的 虚拟 页 面 都 保存 在 
某 个 区 域 中 ， 而 不 属于 某 个 区 域 的 虚拟 页 是 不 存在 的 ， 并 且 不 能 被 进程 引用 。 区 域 的 概念 
很 重要 ， 因 为 它 允 许 虚拟 地 址 空间 有 间 际 。 内 核 不 用 记录 那些 不 存在 的 虚拟 页 ， 而 这 样 的 
页 也 不 占用 内 存 、 磁 盘 或 者 内 核 本 身 中 的 任何 额外 资源 。 

图 9-27 强调 了 记录 一 个 进程 中 虚拟 内 存 区 域 的 内 核 数据 结构 。 内 核 为 系统 中 的 每 个 
进程 维护 一 个 单独 的 任务 结构 ( 源 代 码 中 的 task struct)。 任 务 结构 中 的 元 素 包 含 或 者 指 
癌 内 核 运 行 该 进程 所 需要 的 所 有 信息 (例如 ，PID、 指 向 用 户 栈 的 指针 、 可 执行 目标 文件 的 
名 字 ， 以 及 程序 计数 器 )。 
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图 9-27 Linux 是 如 何 组 织 虚 拟 内 存 的 


任务 结构 中 的 一 个 条 目 指 向 mm_struct， 它 描述 了 虚拟 内 存 的 当前 状态 。 我 们 感 兴趣 的 
两 个 字段 是 pgd 和 mmap， 其 中 pgd 指 疝 第 一 级 页 表 ( 页 全 局 目录 ) 的 基 址 ， 而 mmap 指向 一 个 
vm area structs( 区 域 结构 ) 的 链表 ， 其 中 每 个 vm area structs 都 描述 了 当前 虚拟 地 址 空 
间 的 一 个 区 域 。 当 内 核 运 行 这 个 进程 时 ， 就 将 pgd 存放 在 CR3 控制 寄存 器 中 。 

为 了 我 们 的 目的 ， 一 个 具体 区 域 的 区 域 结构 包含 下 面 的 字段 : 

e vm_start: 指 回 这 个 区 域 的 起 始 处 。 

e vm end: 指向 这 个 区 域 的 结束 处 。 

e vm_prot: 摘 述 这 个 区 域内 包含 的 所 有 页 的 读 写 许可 权限 。 

e vm flags: 摘 述 这 个 区 域内 的 页 面 是 与 其 他 进程 共享 的 ， 还 是 这 个 进程 私有 的 (还 

描述 了 其 他 一 些 信息 )。 

@ vm next: 指 回 链表 中 下 一 个 区 域 结 构 。 

2. Linux 缺 页 异常 处 理 

假设 MMU 在 试图 翻译 某 个 虚拟 地 址 A 时 ， 触 发 了 一 个 缺 页 。 这 个 异常 导致 控制 转 
移 到 内 核 的 缺 页 处 理 程序 ， 处 理 程序 随后 就 执行 下 面 的 步骤 ; 

1) 虚拟 地 址 A 是 合法 的 吗 ? 换 句 话说 ，A 在 某 个 区 域 结构 定义 的 区 域内 吗 ? 为 了 回 
答 这 个 问题 ， 缺 页 处 理 程序 搜索 区 域 结构 的 链表 ， 把 A 和 每 个 区 域 结构 中 的 vm_start 和 
vm_end 做 比较 。 如 果 这 个 指令 是 不 合法 的 ， 那 么 缺 页 处 理 程 序 就 触发 一 个 段 错误 ， 从 而 
终止 这 个 进程 。 这 个 情况 在 图 9-28 中 标识 为 “1”。 

因为 一 个 进程 可 以 创建 任意 数量 的 新 虚拟 内 存 区 域 ( 使 用 在 下 一 节 中 描述 的 mmap 函 
数 ) ， 所 以 顺序 搜索 区 域 结构 的 链表 花 销 可 能 会 很 大 。 因 此 在 实际 中 ，Linux 使 用 某 些 我 
们 没有 显示 出 来 的 字段 ，Linux 在 链表 中 构建 了 一 棵 树 ， 并 在 这 棵 树 上 进行 查找 。 

2) 试图 进行 的 内 存 访问 是 否 合法 ? 换 名 话说， 进程 是 否 有 读 、 写 或 者 执行 这 个 区 域 
内 页 面 的 权限 ? 例如 ， 这 个 缺 页 是 不 是 由 一 条 试图 对 这 个 代码 段 里 的 只 读 页 面 进行 写 操作 
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的 存储 指令 造成 的 ? 这 个 缺 页 是 不 是 因为 一 个 运行 在 用 户 模 式 中 的 进程 试图 从 内 核 虚 拟 内 
存 中 读 取 字 造成 的 ? 如果 试图 进行 的 访问 是 不 合法 的 ， 那 么 缺 页 处 理 程序 会 触发 一 个 保护 
异常 ， 从 而 终止 这 个 进程 。 这 种 情况 在 图 9-28 中 标识 为 “2”。 

3) 此 刻 ， 内 核 知 道 了 这 个 缺 页 是 由 于 对 合法 的 虚拟 地 址 进行 合法 的 操作 造成 的 。 它 是 
这 样 来 处 理 这 个 缺 页 的 : 选择 一 个 牺牲 页 面 ， 如 果 这 个 牺牲 页 面 被 修改 过 ， 那 么 就 将 它 交 换 
出 去 ， 换 入 新 的 页 面 并 更 新 页 表 。 当 缺 页 处 理 程序 返回 时 ，CPU 重新 启动 引起 缺 页 的 指令 ， 这 
条 指令 将 再 次 发 送 A 到 MMU。 这 次 ，MMU 就 能 正常 地 翻译 A， 而 不 会 再 产生 缺 页 中 断 丁 。 
进程 虚拟 内 存 


vm area_struct 





保护 异常 : 


© 例如 ， 违 反 许可 ， 
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图 9-28 Linux 缺 页 处 理 


9.8 内 存 映射 


Linux 通过 将 一 个 虚拟 内 存 区 域 与 一 个 磁盘 上 的 对 象 (object) 关联 起 来 ， 以 初始 化 这 
个 虚拟 内 存 区 域 的 内 容 ， 这 个 过 程 称 为 内 存 映射 (memory mapping)。 虚 拟 内 存 区 域 可 以 
映射 到 两 种 类 型 的 对 象 中 的 一 种 ; 

1) Linux 文件 系统 中 的 普通 文件 : 一 个 区 域 可 以 上 映射 到 一 个 普通 磁盘 文件 的 连续 部 
分 ， 例 如 一 个 可 执行 目标 文件 。 文 件 区 (section) 被 分 成 页 大 小 的 片 ， 每 一 片 包 含 一 个 虚拟 
页 面 的 初始 内 容 。 因 为 按 需 进行 页 面 调度 ， 所 以 这 些 虚 拟 页 面 没有 实际 交换 进入 物理 内 
存 ， 直 到 CPU 第 一 次 引用 到 页 面 ( 即 发 射 一 个 虚拟 地 址 ， 落 在 地 址 空间 这 个 页 面 的 范围 之 
内 ) 。 如 果 区 域 比 文件 区 要 大 ， 和 那么 就 用 零 来 填充 这 个 区 域 的 余下 部 分 。 

2) 匿名 文件 : 一 个 区 域 也 可 以 映射 到 一 个 匿名 文件 ， 匿 名 文件 是 由 内 核 创建 的 ， 包 
含 的 全 是 二 进 制 零 。CPU 第 一 次 引用 这 样 一 个 区 域内 的 虚拟 页 面 时 ， 内 核 就 在 物理 内 存 
中 找到 一 个 合适 的 牺牲 页 面 ， 如 果 该 页 面 被 修改 过 ， 就 将 这 个 页 面 换 出 来 ， 用 二 进 制 零 履 
盖 牺 牲 页 面 并 更 新 页 表 ， 将 这 个 页 面 标记 为 是 驻 留 在 内 存 中 的 。 注 意 在 磁盘 和 内 存 之 间 并 
没有 实际 的 数据 传送 。 因 为 这 个 原因 ， 了 映射 到 匿名 文件 的 区 域 中 的 页 面 有 时 也 叫做 请 求 二 
进 制 零 的 页 (demand-zero page)。 

无 论 在 哪 种 情况 中 ,一旦 一 个 虚拟 页 面 被 初始 化 了 ， 它 就 在 一 个 由 内 核 维护 的 专门 的 
交换 文件 (swap file) 之 间 换 来 换 去 。 交 换文 件 也 叫做 交换 空间 (swap space) 或 者 交换 区 域 
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(swap area) 。 需 要 意识 到 的 很 重要 的 一 点 是 ， 在 任何 时 刻 ， 交 换 空间 都 限制 着 当前 运行 着 
的 进程 能 够 分 配 的 虚拟 页 面 的 总 数 。 


9.8. 1 再 看 共享 对 象 


内 存 映射 的 概念 来 源 于 一 个 聪明 的 发 现 : 如 果 虚 拟 内 存 系 统 可 以 集成 到 传统 的 文件 系 
统 中 ， 那 么 就 能 提供 一 种 简单 而 高 效 的 把 程序 和 数据 加 载 到 内 存 中 的 方法 。 

正如 我 们 已 经 看 到 的 ， 进 程 这 一 抽象 能 够 为 每 个 进程 提供 自己 私有 的 虚拟 地 址 空间 ， 
可 以 免 受 其 他 进程 的 错误 读 写 。 不 过 ， 许 多 进程 有 同样 的 只 读 代 码 区 域 。 例 如 ， 每 个 运行 
Linux shell 程序 bash 的 进程 都 有 相同 的 代码 区 域 。 而 且 ， 许 多 程序 需要 访问 只 读 运 行 时 
库 代 码 的 相同 副本 。 例 如 ， 每 个 C 程序 都 需要 来 自 标准 C 库 的 诸如 printf 这 样 的 函数 。 
那么 ， 如 果 每 个 进程 都 在 物理 内 存 中 保持 这 些 沉 用 代码 的 副本 ， 那 就 是 极端 的 浪费 了 。 幸 
运 的 是 ， 内 存 映 射 给 我 们 提供 了 一 种 清晰 的 机 制 ， 用 来 控制 多 个 进程 如 何 共 享 对 象 。 

一 个 对 象 可 以 被 映射 到 虚拟 内 存 的 一 个 区 域 ， 要 么 作为 共享 对 象 ， 要 么 作为 私有 对 
象 。 如 果 一 个 进程 将 一 个 共享 对 象 映 射 到 它 的 虚拟 地 址 空间 的 一 个 区 域内 ， 那 么 这 个 进程 
对 这 个 区 域 的 任何 写 操 作 ， 对 于 那些 也 把 这 个 共享 对 象 映射 到 它们 虚拟 内 存 的 其 他 进程 而 
言 ， 也 是 可 见 的 。 而 且 ， 这 些 变化 也 会 反映 在 磁盘 上 的 原始 对 象 中 。 

另 一 方面 ， 对 于 一 个 映射 到 私有 对 象 的 区 域 做 的 改变 ， 对 于 其 他 进程 来 说 是 不 可 见 
的 ， 并 且 进 程 对 这 个 区 域 所 做 的 任何 写 操作 都 不 会 反映 在 磁盘 上 的 对 象 中 。 一 个 映射 到 共 
享 对 象 的 虚拟 内 存 区 域 叫 做 共享 区 域 。 类 似 地 ， 也 有 私有 区 域 。 

假设 进程 1 将 一 个 共享 对 象 映 射 到 它 的 虚拟 内 存 的 一 个 区 域 中 ， 如 图 9-29a 所 示 。 现 
在 假设 进程 2 将 同一 个 共享 对 象 映 射 到 它 的 地 址 空间 (并 不 一 定 要 和 进程 1 在 相同 的 虚拟 
地 址 处 ， 如 图 9-29b 所 示 ) 。 


进程 1 的 物理 进程 2 的 进程 1 的 物理 进程 2 的 
虚拟 内 存 内 存 虚拟 内 存 虚拟 内 存 内 存 虚拟 内 存 
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共享 对 象 共享 对 象 
a ) 进程 1 映射 了 共享 对 象 之 后 b ) 进程 2 映射 了 同一 个 共享 对 象 之 后 
图 9-29 ”一 个 共享 对 象 ( 注 意 ， 物 理 页 面 不 一 定 是 连续 的 ) 


因为 每 个 对 象 都 有 一 个 唯一 的 文件 名 ， 内 核 可 以 迅速 地 判定 进程 1 已 经 映射 了 这 个 对 
象 ， 而 且 可 以 使 进程 2 中 的 页 表 条 目 指向 相应 的 物理 页 面 。 关 键 点 在 于 即使 对 象 被 映射 到 
了 多 个 共享 区 域 ， 物 理 内 存 中 也 只 需要 存放 共享 对 象 的 一 个 副本 。 为 了 方便 ,我 们 将 物理 
页 面 显示 为 连续 的 ， 但 是 在 一 般 情况 下 当然 不 是 这 样 的 。 

私有 对 象 使 用 一 种 叫做 写 时 复制 (copy-orrwrite) 的 巧妙 技术 被 映射 到 虚拟 内 存 中 。 一 
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私有 对 象 开始 生命 周期 的 方式 基本 上 与 共享 对 象 的 一 样 ， 在 物理 内 存 中 只 保存 有 私有 对 象 的 
一 份 副本 。 比 如 ， 图 9-30a 展示 了 一 种 情况 ， 其 中 两 个 进程 将 一 个 私有 对 象 映 射 到 它们 虚拟 内 
存 的 不 同 区 域 ， 但 是 共享 这 个 对 象 同 一 个 物理 副本 。 对 于 每 个 映射 私有 对 象 的 进程 ， 相 应 私有 
区 域 的 页 表 条 目 都 被 标记 为 只 读 ， 并 且 区 域 结构 被 标记 为 私有 的 写 时 复制 。 只 要 没有 进程 试图 
写 它 自己 的 私有 区 域 ， 它 们 就 可 以 继续 共享 物理 内 存 中 对 和 象 的 一 个 单独 副本 。 然 而 ， 只 要 有 一 
个 进程 试图 写 私有 区 域内 的 某 个 页 面 ， 那 么 这 个 写 操作 就 会 触发 一 个 保护 故障 。 

当 故 障 处 理 程 序 注意 到 保护 异常 是 由 于 进程 试图 写 私有 的 写 时 复制 区 域 中 的 一 个 页 面 
而 引起 的 ， 它 就 会 在 物理 内 存 中 创建 这 个 页 面 的 一 个 新 副本 ， 更 新 页 表 条 目 指 向 这 个 新 的 
副本 ， 然 后 恢复 这 个 页 面 的 可 写 权 限 ， 如 图 9-30b 所 示 。 当 故障 处 理 程序 返回 时 ，CPU 重 
新 执行 这 个 写 操作 ， 现 在 在 新 创建 的 页 面 上 这 个 写 操作 就 可 以 正常 执行 了 。 


进程 1 的 物理 进程 2 的 进程 1 的 物理 进程 2 的 
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私有 的 写 时 复制 对 象 私有 的 写 时 复制 对 象 
a ) 两 个 进程 都 映射 了 私有 的 写 时 复制 对 象 之 后 b ) 进程 2 写 了 私有 区 域 中 的 一 个 页 之 后 


图 9-30 ”一 个 私有 的 写 时 复制 对 象 


通过 延迟 私有 对 象 中 的 副本 直到 最 后 可 能 的 时 刻 ， 写 时 复制 最 充分 地 使 用 了 稀有 的 物 
理 内 存 。 


9.8.2 再 看 fork 函数 


既然 我 们 理解 了 虚拟 内 存 和 内 存 上 映射， 那么 我 们 可 以 清晰 地 知道 fork 函数 是 如 何 创 
建 一 个 带 有 自己 独立 虚拟 地 址 空间 的 新 进程 的 。 

当 fork 函数 被 当前 进程 调用 时 ， 内 核 为 新 进程 创建 各 种 数据 结构 ， 并 分 配给 它 一 个 
唯一 的 PID。 为 了 给 这 个 新 进程 创建 虚拟 内 存 ， 它 创建 了 当前 进程 的 mm struct、 区 域 结 
构 和 页 表 的 原样 副本 。 它 将 两 个 进程 中 的 每 个 页 面 都 标记 为 只 读 ， 并 将 两 个 进程 中 的 每 个 
区 域 结构 都 标记 为 私有 的 写 时 复制 。 

当 fork 在 新 进程 中 返回 时 ， 新 进程 现在 的 虚拟 内 存 刚 好 和 调用 fork 时 存在 的 虚拟 
内 存 相 同 。 当 这 两 个 进程 中 的 任 一 个 后 来 进行 写 操作 时 ， 写 时 复制 机 制 就 会 创建 新 页 面 ， 
因此 ， 也 就 为 每 个 进程 保持 了 私有 地 址 空间 的 抽象 概念 。 


9. 8.3 再 看 execve 函数 


虚拟 内 存 和 内 存 映射 在 将 程序 加 载 到 内 存 的 过 程 中 也 扮演 着 关键 的 角色 。 既 然 已 经 理 
解 了 这 些 概念 ， 我 们 就 能 够 理解 execve 图 数 实 际 上 是 如 何 加 载 和 执行 程序 的 。 假 设 运 行 
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在 当前 进程 中 的 程序 执行 了 如 下 的 execve 调用 : 
execVe('"a.out'" ，NULL，NULL) ; 


正如 在 第 8 章 中 学 到 的 ，execve 函数 在 当前 进程 中 加 载 并 运行 包含 在 可 执行 目标 文件 a.cut 
中 的 程序 ， 用 a.out 程序 有 效 地 替代 了 当前 程序 。 加 载 并 运行 a.out 需要 以 下 几 个 步骤 : 
@ 删除 已 存在 的 用 户 区 域 。 删 除 当 前 进程 虚拟 地 址 的 用 户 部 分 中 的 已 存在 的 区 域 结构 。 
@ 映射 私有 区 域 。 为 新 程序 的 代码 、 数 据 、bss 和 栈 区 域 创建 新 的 区 域 结 构 。 所 有 这 些 
新 的 区 域 都 是 私有 的 、 写 时 复制 的 。 代 码 和 数据 区 域 被 映射 为 a.out 文件 中 的 .text 
和 .data 区 。bss 区 域 是 请 求 二 进 制 零 的 ， 上 映射 到 匿名 文件 ， 其 大 小 包含 在 a.out 中 。 栈 
和 堆 区 域 也 是 请 求 二 进 制 零 的 ， 初 始 长 度 为 零 。 图 9-31 概括 了 私有 区 域 的 不 同 映射 。 
@ 映射 共享 区 域 。 如 果 a.out 程序 与 共享 对 象 ( 或 目标 ) 链 接 ， 比 如 标准 C 库 libc. 
so， 那 么 这 些 对 象 都 是 动态 链接 到 这 个 程序 的 ， 然 后 再 映射 到 用 户 虚 拟 地 址 空间 中 
的 共享 区 域内 。 
@ 设置 程序 计数 器 (PC)。execve 做 的 最 后 一 件 事情 就 是 设置 当前 进程 上 下 文中 的 程 
序 计 数 器 ， 使 之 指向 代码 区 域 的 和 人口 点 。 
下 一 次 调度 这 个 进程 时 ， 它 将 从 这 个 人 口 点 开始 执行 。Linux 将 根据 需要 换 入 代码 和 
数据 页 面 。 


) 私有 的 ,请求 二 进 制 零 的 


libc.so 


共享 库 的 内 存 映射 区 域 ] ee 文件 提供 的 
运行 时 堆 私有 的 ， 一 
| | eater 


未 初始 化 的 数据 ( .bss ) | 上 私有 的 ， 请 求 二 进 制 零 的 
a.out 


已 初始 化 的 数据 (. data ) 私有 的 ， 文 件 提供 的 
nit 





图 9-31 加 载 器 是 如 何 映射 用 户 地 址 空间 的 区 域 的 
9.8.4 使 用 mmap 函数 的 用 户 级 内 存 映 射 
Linux 进程 可 以 使 用 mmap 函数 来 创建 新 的 虚拟 内 存 区 域 ， 并 将 对 象 映 射 到 这 些 区 域 中 。 


#include <unistd.h> 
#include <sys/mman.h> 


void *mmap(void *start, size.t length, int prot, int flags, 
int fd, off_t offset) ; 
返回 ; 若 成 功 时 则 为 指向 映射 区 域 的 指针 ， 若 出 错 则 为 MAP_FAILED( 一 1)。 
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mmap 函数 要 求 内 核 创建 一 个 新 的 虚拟 内 存 区 域 ， 最 好 是 从 地 址 start 开始 的 一 个 区 
域 ， 并 将 文件 描述 符 fd 指定 的 对 象 的 一 个 连续 的 片 (chunk) 映 射 到 这 个 新 的 区 域 。 连 续 的 
对 象 片 大 小 为 Ilength 字 节 ， 从 上 距 文件 开始 处 偏 移 量 为 offset 字 节 的 地 方 开 始 。start 
地 址 仅仅 是 一 个 上 暗示， 通常 被 定义 为 NULL。 为 了 我 们 的 目的 ， 我们 总 是 假设 起 始 地 址 为 
NULL。 图 9-32 描述 了 这 些 参数 的 意义 。 


o> 
» 
” 


a ——— StaArt 
length zm ee (或 由 内 核 选 
a 定 的 地 址 ) 
Sifset 一 
《 字 节 ) 


0 0 
文件 描述 符 fa 指定 进程 虚拟 内 存 
的 磁盘 文件 


图 9-32 mmap 参数 的 可 视 化 解释 


参数 prot 包含 描述 新 映射 的 虚拟 内 存 区 域 的 访问 权限 位 ( 即 在 相应 区 域 结构 中 的 vm 
prot 位 )。 

e PROT_EXEC: 这 个 区 域内 的 页 面 由 可 以 被 CPU 执行 的 指令 组 成 。 

e PROT_ READ: 这 个 区 域内 的 页 面 可 读 。 

e PROT_WRITE: 这 个 区 域内 的 页 面 可 写 。 

e PROT_NONE: 这 个 区 域内 的 页 面 不 能 被 访问 。 

参数 flags 由 描述 被 映射 对 象 类 型 的 位 组 成 。 如 果 设 置 了 MAP_ANON 标记 位 ， 那 
么 被 映射 的 对 和 象 就 是 一 个 匿名 对 象 ， 而 相应 的 虚拟 页 面 是 请 求 二 进 制 零 的 。MAP_PRI- 
VATE 表示 被 映射 的 对 象 是 一 个 私有 的 、 写 时 复制 的 对 象 ， 而 MAP_SHARED 表示 是 一 
个 共享 对 象 。 例 如 


bufp = Mmap (NULL, size, PROT_READ, MAP_PRIVATE|MAP_ANON, 0, 0); 

让 内 核 创 建 一 个 新 的 包含 size 字 节 的 只 读 、 私 有 、 请 求 二 进 制 零 的 虚拟 内 存 区 域 。 
如 果 调 用 成 功 ， 那 么 bufp 包含 新 区 域 的 地 址 。 

munmap 图 数 删除 虚拟 内 存 的 区 域 : 


#include <unistd.h> 
#include <sys/mman.h> 


int munmap(void *start, size_t length); 





返回 : 车 成 功 则 为 0， 若 出 错 则 为 一 1。 


munmap 函数 删除 从 虚拟 地 址 start 开始 的 ， 由 接 下 来 length 字 节 组 成 的 区 域 。 接 
下 来 对 已 删除 区 域 的 引用 会 导致 段 错 误 。 
评弹 练习 题 9.5 编写 一 个 C 程序 mmapcopy.c， 使 用 mmap 将 一 个 任意 大 小 的 磁盘 文件 复 
制 到 stdout。 输 入 文件 的 名 字 必 须 作 为 一 个 命令 行 参数 来 传递 。 
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9.9 动态 内 存 分 配 


虽然 可 以 使 用 低级 的 mmap 和 munmap 函数 来 创建 和 删除 虚拟 内 存 的 区 域 , 但 是 C 程 
序 员 还 是 会 觉得 当 运 行 时 需要 额外 虚拟 内 存 时 ， 用 动态 内 存 分 配器 (dynamic memory allo- 
cator) 更 方便 ， 也 有 更 好 的 可 移植 性 。 

动态 内 存 分 配器 维护 着 一 个 进程 的 虚拟 内 存 区 
域 ， 称 为 堆 (heap)( 见 图 9-33)。 系 统 之 间 细 市 不 同 ， AAA 
但 是 不 失 通用 性 ， 假 设 堆 是 一 个 请 求 二 进 制 零 的 区 。 国 2 5 
域 ， 它 紧 接 在 未 初始 化 的 数据 区 域 后 开始 ， 并 向 上 生 ne et 
长 (向 更 高 的 地 址 )。 对 于 每 个 进程 ， 内 核 维护 着 一 个 
变量 prk( 读 做 “break”)， 它 指 问 堆 的 顶部 。 

分 配器 将 堆 视 为 一 组 不 同 大 小 的 块 (block) 的 集合 
来 维护 。 每 个 块 就 是 一 个 连续 的 虚拟 内 存 片 (chunk)， 


rn 4 a 图 堆 顶 
要 么 是 已 分 配 的 ， 要 么 是 空闲 的 。 已 分 配 的 块 显 式 地 ro 
保留 为 供应 用 程序 使 用 。 空 闲 块 可 用 来 分 配 。 空 闲 块 


保持 空闲 ， 直 到 它 显 式 地 被 应 用 所 分 配 。 一 个 已 分 配 


的 块 保持 已 分 配 状态 ， 直 到 它 被 释放 ， 这 种 释放 要 么 已 初始 化 的 数据 (. data ) 
区 


共享 库 的 内 存 映射 区 域 


执行 的 。 

分 配器 有 两 种 基本 风格 。 两 种 风格 都 要 求 应 用 显 
式 地 分 配 块 。 它 们 的 不 同 之 处 在 于 由 哪个 实体 来 负责 图 9-33 ” 堆 
释放 已 分 配 的 块 。 

@ 显 式 分 配器 (explicit allocator) ， 要 求 应 用 显 式 地 释放 任何 已 分 配 的 块 。 例 如 ，C 标 

准 库 提供 一 种 叫做 malloc 程序 包 的 显 式 分 配器 。C 程序 通过 调用 malloc 函数 来 
分 配 一 个 块 ， 并 通过 调用 free 函数 来 释放 一 个 块 。C++ 中 的 new 和 delete 操作 
符 与 C 中 的 malloc 和 free 相当 。 

9 隐 式 分 配器 (implicit allocator) ， 另 一 方面 ， 要 求 分 配器 检测 一 个 已 分 配 块 何 时 不 再 
被 程序 所 使 用 ， 那 么 就 释放 这 个 块 。 隐 式 分 配器 也 叫做 垃圾 收集 器 (garbage collec- 
tor)， 而 自动 释放 未 使 用 的 已 分 配 的 块 的 过 程 叫 做 垃圾 收集 (garbage collection ) 。 
例如 ， 诸 如 Lisp、ML 以 及 Java 之 类 的 高 级 语言 就 依赖 垃圾 收集 来 释放 已 分 配 
的 块 。 

本 节 剩 下 的 部 分 讨论 的 是 显 式 分 配器 的 设计 和 实现 。 我 们 将 在 9. 10 节 中 讨论 隐 式 分 
配器 。 为 了 更 具体 ， 我 们 的 讨论 集中 于 管理 堆 内 存 的 分 配器 。 然 而 ， 应 该 明 昌 内 存 分 配 是 
一 个 普遍 的 概念 ， 可 以 出 现在 各 种 上 下 文中 。 例 如 ， 图 形 处 理 密集 的 应 用 程序 就 经 常 使 用 
标准 分 配器 来 要 求 获 得 一 大 块 虚拟 内 存 ， 然 后 使 用 与 应 用 相关 的 分 配器 来 管理 内 存 ， 在 该 
块 中 创建 和 销毁 图 形 的 节点 。 





9.9.1 malLloc 和 和 free 函数 


C 标准 库 提 供 了 一 个 称 为 malloc 程序 包 的 显 式 分 配器 。 程 序 通过 调用 malloc 函数 
来 从 堆 中 分 配 块 。 
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#include <stdlib.h> 


void *malloc(size_t size); 





返回 : 若 成功 则 为 已 分 配 块 的 指针 ， 若 出 错 则 为 NULL。 


malloc 图 数 返 回 一 个 指针 ， 指 同 大 小 为 至 少 size 字 节 的 内 存 块 ， 这 个 块 会 为 可 能 包 
含 在 这 个 块 内 的 任何 数据 对 象 类 型 做 对 齐 。 实 际 中 ， 对 齐 依 赖 于 编译 代码 在 32 位 模式 
(gcc -m32) 还 是 64 位 模式 (默认 的 ) 中 运行 。 在 32 位 模式 中 ，malloc 返 回 的 块 的 地 址 总 
是 8 的 倍数 。 在 64 位 模式 中 ， 该 地 址 总 是 16 的 倍数 。 


旁 注 | 一 个 字 有 多 大 

回想 一 下 在 第 3 章 中 我 们 对 机 器 代码 的 讨论 ，JIntel 将 4 字 节 对 象 称 为 双 字 。 然 而 ， 在 
本 节 中 ， 我 们 会 假设 字 是 4 字 节 的 对 象 ， 而 双 字 是 8 字 节 的 对 人 象 ， 这 和 传统 术语 是 一 
致 的 。 


如 果 malloc 遇 到 问题 (例如 ， 程 序 要 求 的 内 存 块 比 可 用 的 虚拟 内 存 还 要 大 )， 那 么 它 
就 返回 NULL， 并 设置 errno。malloc 不 初始 化 它 返 回 的 内 存 。 那 些 想 要 已 初始 化 的 动 
态 内 存 的 应 用 程序 可 以 使 用 calloc，calloc 是 一 个 基于 malloc 的 瘦 包 装 阴 数 ， 它 将 分 
配 的 内 存 初始 化 为 零 。 想 要 改变 一 个 以 前 已 分 配 块 的 大 小 ， 可 以 使 用 realloc 函数 。 

动态 内 存 分 配器 ， 例 如 malloc， 可 以 通过 使 用 mmap 和 munmap 图 数 ， 显 式 地 分 配 和 
释放 堆 内 存 ， 或 者 还 可 以 使 用 sbrk 函数 : 


#include <unistd.h> 


void *sbrk(intptr._t incr); 
返回 : 若 成功 则 为 旧 的 brk 指针 ， 若 出 错 则 为 一 1。 





sbrk 国 数 通过 将 内 核 的 brk 指针 增加 incr 来 扩展 和 收缩 堆 。 如 果 成 功 ， 它 就 返回 
pbrk 的 旧 值 ， 否 则 ， 它 就 返回 一 1， 并 将 errno 设置 为 ENOMEM。 如 果 incr 为 零 ， 那么 
sbrk 就 返回 brk 的 当前 值 。 用 一 个 为 负 的 incr 来 调用 sbrk 是 合法 的 ， 而 且 很 巧妙 ， 因 
为 返回 值 (brk 的 旧 值 ) 指 向 距 新 堆 顶 同上 abs(incr) 字 节 处 。 

程序 是 通过 调用 free 也 数 来 释放 已 分 配 的 堆 块 。 


#include <stdlib.,h> 


void free(void *ptr); 





ptr 参数 必须 指向 一 个 从 malloc、calloc 或 者 realloc 获得 的 已 分 配 块 的 起 始 位 
置 。 如 果 不 是 ， 那 么 free 的 行为 就 是 未 定义 的 。 更 糟 的 是 ， 既 然 它 什么 都 不 返回 ，free 
就 不 会 告诉 应 用 出 现 了 错误 。 就 像 我 们 将 在 9. 11 节 里 看 到 的 ， 这 会 产生 一 些 令 人 迷惑 的 
运行 时 错误 。 

图 9-34 展示 了 一 个 malloc 和 free 的 实现 是 如 何 管理 一 个 C 程序 的 16 字 的 (非常 ) 小 
的 堆 的 。 每 个 方 框 代 表 了 一 个 4 字 节 的 字 。 粗 线 标 出 的 矩形 对 应 于 已 分 配 块 (有 阴影 的 ) 和 
空闲 块 ( 无 阴影 的 ) 。 初 始 时 ， 堆 是 由 一 个 大 小 为 16 个 字 的 、 双 字 对 齐 的 、 空 闲 块 组 成 的 。 
(本 节 中 ， 我 们 假设 分 配器 返回 的 块 是 8 字 节 双 字 边界 对 齐 的 。) 
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e@ 图 9-34a: 程序 请 求 一 个 4 字 的 块 。malloc 的 响应 是 : 从 空闲 块 的 前 部 切 出 一 个 4 
字 的 块 ， 并 返回 一 个 指向 这 个 块 的 第 一 字 的 指针 。 


e 图 9-34b: 程序 请 求 一 个 5 字 的 块 。 
malloc 的 响应 是 : 从 空闲 块 的 前 部 分 
配 一 个 6 字 的 块 。 在 本 例 中 ，malloc 
在 块 里 填充 了 一 个 额外 的 字 ， 是 为 了 
保持 空闲 块 是 双 字 边界 对 齐 的 。 

e 图 9-34c: 程序 请 求 一 个 6 字 的 块 ， 而 
malloc 就 从 空闲 块 的 前 部 切 出 一 个 6 
字 的 块 。 

e 图 9-34d: 程序 释放 在 图 9-34b 中 分 配 
的 那个 6 字 的 块 。 注 意 ， 在 调用 free 
返回 之 后 ， 指 针 p2 仍然 指向 被 释放 了 
的 块 。 应 用 有 责任 在 它 被 一 个 新 的 
malloc 调用 重新 初始 化 之 前 ， 不 再 使 
用 p2。 

e 图 9-34e: 程序 请 求 一 个 2 字 的 块 。 在 
这 种 情况 中 ，malloc 分 配 在 前 一 步 中 
被 释放 了 的 块 的 一 部 分 ， 并 返回 一 个 
指向 这 个 新 块 的 指针 。 


9.9.2 为 什么 要 使 用 动态 内 存 分 配 


程序 使 用 动态 内 存 分 配 的 最 重要 的 原因 





图 9-34 


p1 


a TTT 


a)pl = malloc(4*sizeof (int)) 


p1 p2 


TT TT 


b)p2 = malloc(S*sizeof (int)) 


p3 


Cc)p3 = malloc(6*sizeof (int)) 


p1 p2 p3 


d) free (p2) 
p1 p2 p4 p3 


L yx i 


e)p4 = malloc(2*sizeof (int)) 


用 malloc 和 free 分 配 和 释放 块 。 每 个 
方 框 对 应 于 一 个 字 。 每 个 粗 线 标 出 的 矩 
形 对 应 于 一 个 块 。 阴 影 部 分 是 已 分 配 的 
块 。 已 分 配 的 块 的 填充 区 域 是 深 阴 影 的 。 
无 阴影 部 分 是 空闲 块 。 堆 地 址 是 从 左 往 


是 经 常 直到 程序 实际 运行 时 ， 才 知道 某 些 数 右 增 加 的 

据 结构 的 大 小 。 例 如 ， 假 设 要 求 我 们 编写 一 个 C 程序 ， 它 读 一 个 n 个 ASCII 码 整 数 的 链 
表 ， 每 一 行 一 个 整数 ， 从 stdin 到 一 个 C 数组 。 输 入 是 由 整数 n 和 接 下 来 要 读 和 存储 到 
数组 中 的 个 整数 组 成 的 。 最 简单 的 方法 就 是 静态 地 定义 这 个 数组 ， 它 的 最 大 数组 大 小 是 
硬 编码 的 ，; 


#include "csapp.h" 
#define MAXN 15213 


int array [MAXN]; 


int main() 
{ 


Ln 二 


scanf ("%d", &n); 
if (n > MAXN) 
app_error("Input file too big"); 
for ( = 0; 1 < n; i++) 
scanf (“Xd", karray[i]); 
exit (0); 


il (nk gk i 
OO Wn NO CO mRN OO WW hh Ww N 一 
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像 这 样 用 便 编码 的 大 小 来 分 配 数 组 通常 不 是 一 种 好 想法 。MAXN 的 值 是 任意 的 ， 与 
机 规 上 可 用 的 虚拟 内 存 的 实际 数量 没有 关系 。 而 且 ， 如 果 这 个 程序 的 使 用 者 想 读 取 一 个 比 
MAXN 大 的 文件 ， 唯 一 的 办 法 就 是 用 一 个 更 大 的 MAXN 值 来 重新 编译 这 个 程序 。 虽 然 对 
于 这 个 简单 的 示例 来 说 这 不 成 问题 ， 但 是 硬 编码 数组 界限 的 出 现 对 于 拥有 百 万 行 代码 和 大 
量 使 用 者 的 大 型 软件 产品 而 言 ， 会 变 成 一 场 维护 的 导 梦 。 

一 种 更 好 的 方法 是 在 运行 时 ， 在 已 知 了 nn 的 值 之 后 ， 动 态 地 分 配 这 个 数组 。 使 用 这 种 
方法 ， 数 组 大 小 的 最 大 值 就 只 由 可 用 的 虚拟 内 存 数量 来 限制 了 。 


#include "csapp.h" 


1 

2 

3 int main() 

4 { 

$ int *array, i, n; 

0 

7 scanf ("%d", &n); 

8 array = (int *)Malloc(n * sizeof (int)); 
9 for (i = 0; i < n; i++) 

10 scanf ("%d", &array[il]); 
11 free(array); 

12 exit (0); 

i3 } 


动态 内 存 分 配 是 一 种 有 用 而 重要 的 编程 技术 。 然 而 ， 为 了 正确 而 高 效 地 使 用 分 配 需 ， 
程序 员 需 要 对 它们 是 如 何 工作 的 有 所 了 解 。 我 们 将 在 9. 11 节 中 讨论 因为 不 正确 地 使 用 分 
配 名 所 导致 的 一 些 可 怕 的 错误 。 


9.9.3 分 配器 的 要 求 和 目标 


显 式 分 配 龙 必须 在 一 些 相当 严格 的 约束 条 件 下 工作 : 

@ 处 理 任意 请 求 序列 。 一 个 应 用 可 以 有 任意 的 分 配 请 求 和 释放 请 求 序列 ， 只 要 满足 约 
束 条 件 : 每 个 释放 请 求 必须 对 应 于 一 个 当前 已 分 配 块 ， 这 个 块 是 由 一 个 以 前 的 分 配 
请 求 获 得 的 。 因 此 ， 分 配器 不 可 以 假设 分 配 和 释放 请 求 的 顺序 。 例 如 ， 分 配器 不 能 
假设 所 有 的 分 配 请 求 都 有 相 匹 配 的 释放 请 求 ， 或 者 有 相 匹 配 的 分 配 和 空闲 请 求 是 其 
套 的 。 

9 立即 响应 请 求 。 分 配 融 必须 立即 啊 应 分 配 请 求 。 因 此 ， 不 允许 分 配器 为 了 提高 性 能 
重新 排列 或 者 缓冲 请 求 。 

@ 只 使 用 堆 。 为 了 使 分 配器 是 可 扩展 的 ， 分 配器 使 用 的 任何 非 标 量 数据 结构 都 必须 保 
存在 堆 里 。 

® 对 齐 块 ( 对 齐 要 求 ) 。 分 配 需 必须 对 齐 块 ， 使 得 它们 可 以 保存 任何 类 型 的 数据 对 象 。 

e@ 不 修改 已 分 配 的 块 。 分 配器 只 能 操作 或 者 改变 空闲 块 。 特 别 是 ， 一 旦 块 被 分 配 了 ， 
就 不 允许 修改 或 者 移动 它 了 。 因 此 ， 诸 如 压缩 已 分 配 块 这 样 的 技术 是 不 允许 使 
用 的 。 

在 这 些 限 制 条 件 下 ， 分 配器 的 编写 者 试图 实现 吞吐 率 最 大 化 和 内 存 使 用 率 最 大 化 ， 而 

这 两 个 性 能 目标 通常 是 相互 冲突 的 。 
e 目标 1: 最 大 化 吞吐 率 。 假 定 n 个 分 配 和 释放 请 求 的 某 种 序列 : 
R, ,我 = re J sR 
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我 们 硕 望 一 个 分 配器 的 吞吐 率 最 大 化 ,吞吐 率 定 义 为 每 个 单位 时 间 里 完成 的 请 求 
数 。 例 如 ， 如 果 一 个 分 配器 在 1 秒 内 完成 500 个 分 配 请 求 和 500 个 释放 请 求 ， 那 么 
它 的 吞吐 率 就 是 每 秒 1000 次 操作 。 一 般 而 言 ， 我 们 可 以 通过 使 满足 分 配 和 释放 请 
求 的 平均 时 间 最 小 化 来 使 吞吐 率 最 大 化 。 正 如 我 们 会 看 到 的 ， 开 发 一 个 具有 合理 性 
能 的 分 配器 并 不 困难 ， 所 谓 合理 性 能 是 指 一 个 分 配 请 求 的 最 糟 运 行 时 间 与 空闲 块 的 
数量 成 线性 关系 ， 而 一 个 释放 请 求 的 运行 时 间 是 个 常数 。 
@ 目标 2: 最 大 化 内 存 利用 率 。 天 真 的 程序 员 经 和 常 不 正确 地 假设 虚拟 内 存 是 一 个 无 限 
的 资源 。 实 际 上 ， 一 个 系统 中 被 所 有 进程 分 配 的 虚拟 内 存 的 全 部 数量 是 受 磁盘 上 交 
换 空 间 的 数量 限制 的 。 好 的 程序 员 知 道 虚 拟 内 存 是 一 个 有 限 的 空间 ， 必 须 高 效 地 使 
用 。 对 于 可 能 被 要 求 分 配 和 释放 大 块 内 存 的 动态 内 存 分 配器 来 说 ， 尤 其 如 此 。 
有 很 多 方式 来 描述 一 个 分 配器 使 用 堆 的 效率 如 何 。 在 我 们 的 经 验 中 ， 最 有 用 的 标准 是 
峰值 利用 率 (peak utilization)。 像 以 前 一 样 ， 我 们 给 定 n 个 分 配 和 释放 请 求 的 某 种 顺序 
RR sR vv Re, vv， sR 
如 果 一 个 应 用 程序 请 求 一 个 p 字 节 的 块 ， 那 么 得 到 的 已 分 配 块 的 有 效 载 荷 (payload) 是 p 
字 节 。 在 请 求 尺 完 成 之 后 ， 聚 集 有 效 载荷 (aggregate payload) 表 示 为 已 ， 为 当前 已 分 配 的 
块 的 有 效 载 荷 之 和 ， 而 瓦 表 示 堆 的 当前 的 (单调 非 递 减 的 ) 大 小 。 
那么 ， 前 & 十 1 个 请 求 的 峰值 利用 率 ， 表 示 为 U:， 可 以 通过 下 式 得 到 : 


U, a maxiexP., 


H, 
那么 ， 分 配 吉 的 目标 就 是 在 整个 序列 中 使 峰值 利用 率 U, -最 大 化 。 正 如 我 们 将 要 看 到 的 ， 
在 最 大 化 吞吐 率 和 最 大 化 利用 率 之 间 是 互相 牵制 的 。 特 别 是 ， 以 堆 利用 率 为 代价 ， 很 容易 
编写 出 吞吐 率 最 大 化 的 分 配 恬 。 分 配器 设计 中 一 个 有 趣 的 挑战 就 是 在 两 个 目标 之 间 找 到 一 
个 适当 的 平衡 。 


臣下 放宽 单调 性 假设 
我 们 可 以 通过 让 且 : 成 为 前 十 1 个 请 求 的 最 高 峰 ， 从 而 使 得 在 我 们 对 Ui 的 定义 中 
放宽 单调 非 递减 的 假设 ， 并 且 允 许 堆 增长 和 降低 。 


9.9.4 碎片 


造成 堆 利用 率 很 低 的 主要 原因 是 一 种 称 为 碎片 人 fragmentation) 的 现象 ， 当 虽然 有 未 使 
用 的 内 存 但 不 能 用 来 满足 分 配 请 求 时 ， 就 发 生 这 种 现象 。 有 两 种 形式 的 碎片 : 内 部 碎片 
(internal fragmentation) 和 外 部 碎片 (external fragmentation)。 

内 部 碎片 是 在 一 个 已 分 配 块 比 有 效 载 荷 大 时 发 生 的 。 很 多 原因 都 可 能 造成 这 个 问题 。 
例如 ， 一 个 分 配 妖 的 实现 可 能 对 已 分 配 块 强加 一 个 最 小 的 大 小 值 ， 而 这 个 大 小 要 比 某 个 请 
求 的 有 效 载荷 大 。 或 者 ， 就 如 我 们 在 图 9-34b 中 看 到 的 ， 分 配器 可 能 增加 块 大 小 以 满足 对 
齐 约 束 条 件 。 

内 部 碎片 的 量化 是 简单 明了 的 。 它 就 是 已 分 配 块 大 小 和 它们 的 有 效 载荷 大 小 之 差 的 
和 。 因 此 ， 在 任意 时 刻 ， 内 部 碎片 的 数量 只 取决 于 以 前 请 求 的 模式 和 分 配器 的 实现 方式 。 

外 部 碎片 是 当空 闲 内 存 合计 起 来 足够 满足 一 个 分 配 请 求 ， 但 是 没有 一 个 单独 的 空闲 块 
足够 大 可 以 来 处 理 这 个 请 求 时 发 生 的 。 例 如 ， 如 果 图 9-34e 中 的 请 求 要 求 6 个 字 ， 而 不 是 
2 个 字 ， 那 么 如 果 不 向 内 核 请 求 额外 的 虚拟 内 存 就 无 法 满足 这 个 请 求 ， 即 使 在 堆 中 仍然 有 


592 第 二 部 分 站 系统 上 运行 程序 


6 个 空闲 的 字 。 问 题 的 产生 是 由 于 这 6 个 字 是 分 在 两 个 空闲 块 中 的 。 

外 部 碎片 比 肉 部 碎片 的 量化 要 困难 得 多 ， 因 为 它 不 仅 取 决 于 以 前 请 求 的 模式 和 分 配器 
的 实现 方式 ， 还 取决 于 将 来 请 求 的 模式 。 例 如 ， 假 设 在 & 个 请 求 之 后 ， 所 有 空闲 块 的 大 小 
神 恰 好 是 4 个 字 。 这 个 堆 会 有 外 部 碎片 吗 ? 答案 取决 于 将 来 请 求 的 模式 。 如 果 将 来 所 有 的 
分 配 请 求 都 要 求 小 于 或 者 等 于 4 个 字 的 块 ， 那 么 就 不 会 有 外 部 碎片 。 另 一 方面 ， 如 果 有 一 
个 或 者 多 个 请 求 要求 比 4 个 字 大 的 块 ， 那 么 这 个 堆 就 会 有 外 部 碎片 。 

因为 外 部 碎片 难以 量化 且 不 可 能 预测 ， 所 以 分 配器 通常 采用 启发 式 策略 来 试图 维持 少 
量 的 大 空闲 块 ， 而 不 是 维持 大 量 的 小 空闲 块 。 


9.9.5 实现 问题 


可 以 想象 出 的 最 简单 的 分 配器 会 把 堆 组 织 成 一 个 大 的 字 节 数组 ， 还 有 一 个 指针 P， 初 
始 指向 这 个 数组 的 第 一 个 字 节 。 为 了 分 配 size 个 字 节 ，malloc 将 p 的 当前 值 保存 在 栈 
里 ， 将 p 增加 size， 并 将 p 的 旧 值 返回 到 调用 也 数 。free 只 是 简单 地 返回 到 调用 函数 ， 
而 不 做 其 他 任何 事情 。 

这 个 简单 的 分 配器 是 设计 中 的 一 种 极端 情况 。 因 为 每 个 malloc 和 free 只 执行 很 少 
量 的 指令 ， 看 吐 率 会 极 好 。 然 而 ， 因 为 分 配器 从 不 重复 使 用 任何 块 ， 内 存 利用 率 将 极 差 。 
一 个 实际 的 分 配 天 要 在 吞吐 率 和 利用 率 之 间 把 握 好 平衡 ， 就 必须 考虑 以 下 几 个 问题 : 

e 空闲 块 组 织 : 我 们 如 何 记 录 空 闲 块 ? 

e 放置 : 我 们 如 何 选择 一 个 合适 的 空闲 块 来 放置 一 个 新 分 配 的 块 ? 

e 分 割 : 在 将 一 个 新 分 配 的 块 放置 到 某 个 空闲 块 之 后 ， 我 们 如 何 处 理 这 个 空闲 块 中 的 

剩余 部 分 ? 

e 合并 : 我 们 如 何 处 理 一 个 刚刚 被 释放 的 块 ? 

本 节 剩 下 的 部 分 将 更 详细 地 讨论 这 些 问题 。 因 为 像 放置 、 分 割 以 及 合并 这 样 的 基本 技 
术 贯 穿 在 许多 不 同 的 空闲 块 组 织 中 ， 所 以 我 们 将 在 一 种 叫做 隐 式 空闲 链表 的 简单 空闲 块 组 
织 结构 中 来 介绍 它们 。 


9.9.6 隐 式 空闲 链表 
任何 实际 的 分 配器 都 需要 一 些 数据 结构 ， 人 允许 它 来 区 别 块 边界 ， 以 及 区 别 已 分 配 块 和 
空 闪 块 。 大 多 数 分 配 妖 将 这 些 信息 舱 入 块 本 身 。 一 个 简单 的 方法 如 图 9-35 所 示 。 
31 头 部 3210 


kk 小 。 |o0a| 》 0 的 


malloc 返回 一 个 指针 ， 
它 指 问 有 效 载荷 的 开始 处 









块 大 小 包括 头 部 、 


ee 有 效 载荷 和 所 有 的 填充 


填充 ( 可 选 ) 


图 9-35 ”一 个 简单 的 堆 块 的 格式 


在 这 种 情况 中 ， 一 个 块 是 由 一 个 字 的 关 部 、 有 效 载荷 ， 以 及 可 能 的 一 些 额 外 的 填充 组 
成 的 。 头 部 编码 了 这 个 块 的 大 小 (包括 头 部 和 所 有 的 填充 )， 以 及 这 个 块 是 已 分 配 的 还 是 空 
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朵 的 。 如 采 我 们 强加 一 个 双 字 的 对 齐 约束 和 条件， 那么 块 大 小 就 总 是 8 的 倍数 ， 且 块 大 小 的 

最 低 3 位 总 是 零 。 因 此 ， 我 们 只 需要 内 存 大 小 的 29 个 高 位 ， 释 放 剩 余 的 3 位 来 编码 其 他 

信息 。 在 这 种 情况 中 ， 我 们 用 其 中 的 最 低位 (已 分 配 位 ) 来 指明 这 个 块 是 已 分 配 的 还 是 空闲 

的 。 例 如 ， 假 设 我 们 有 一 个 已 分 配 的 块 ， 大 小 为 24(0x18) 字 节 。 那 么 它 的 头 部 将 是 
0x00000018 | 0xl = 0x00000019 


类 似 地 ， 一 个 块 大 小 为 40(0x28) 字 节 的 空闲 块 有 如 下 的 头 部 : 


Ox00000028 | 0x0 = 0x00000028 


头 部 后 面 就 是 应 用 调用 malloc 时 请 求 的 有 效 载 荷 。 有 效 载荷 后 面 是 一 片 不 使 用 的 填 
充 块 ， 其 大 小 可 以 是 任意 的 。 需 要 填充 有 很 多 原因 。 比 如 ， 填 充 可 能 是 分 配器 策略 的 一 部 
分 ， 用 来 对 付 外 部 碎片 。 或 者 也 需要 用 它 来 满足 对 齐 要 求 。 

假设 块 的 格式 如 图 9-35 所 示 ， 我 们 可 以 将 扒 组 织 为 一 个 连续 的 已 分 配 块 和 空闲 块 的 
序列 ， 如 图 9-36 所 示 。 


未 使 用 的 
堆 的 





:对 齐 的 





图 9-36 ”用 隐 式 空闲 链表 来 组 织 堆 。 阴 影 部 分 是 已 分 配 块 。 没 有 阴影 的 部 分 是 空闲 块 。 
头 部 标记 为 (大 小 ( 字 节 )/ 已 分 配 位 ) 


我 们 称 这 种 结构 为 隐 式 空闲 链表 ， 是 因为 空闲 块 是 通过 头 部 中 的 大 小 字段 隐 含 地 连接 着 
的 。 分 配 船 可 以 通过 遍历 堆 中 所 有 的 块 ， 从 而 间接 地 遍历 整个 空闲 块 的 集合 。 注 意 ， 我 们 需要 
某 种 特殊 标记 的 结束 块 ， 在 这 个 示例 中 ， 就 是 一 个 设置 了 已 分 配 位 而 大 小 为 零 的 终止 头 部 (ter- 
minating header) 。( 就 像 我 们 将 在 9. 9. 12 节 中 看 到 的 ， 设 置 已 分 配 位 简化 了 空闲 块 的 合并 。) 

隐 式 空 用 链表 的 优点 是 人 简单。 显著 的 缺点 是 任何 操作 的 开销 ， 例 如 放置 分 配 的 块 ， 要 
求 对 空闲 链表 进行 搜索 ， 该 搜索 所 需 时 间 与 堆 中 已 分 配 块 和 空闲 块 的 总 数 呈 线性 关系 。 

很 重要 的 一 点 就 是 意识 到 系统 对 齐 要 求 和 分 配器 对 块 格式 的 选择 会 对 分 配器 上 的 最 小 
块 大 小 有 强制 的 要 求 。 没 有 已 分 配 块 或 者 空闲 块 可 以 比 这 个 最 小 值 还 小 。 例 如 ， 如 果 我 们 
假设 一 个 双 字 的 对 齐 要 求 ， 那 么 每 个 块 的 大 小 都 必须 是 双 字 (8 字 节 ) 的 倍数 。 因 此 ， 图 9- 
35 中 的 块 格式 就 导致 最 小 的 块 大 小 为 两 个 字 : 一 个 字 作 头 ， 另 一 个 字 维 持 对 齐 要 求 。 即 
使 应 用 只 请 求 一 字 节 ， 分 配器 也 仍然 需要 创建 一 个 两 字 的 块 。 
攻 s 汪 练 习题 9.6 确定 下 面 malloc 请 求 序列 产生 的 块 大 小 和 头 部 值 。 假 设 ; 1) 分 配器 保 

持 双 字 对 齐 ， 并 且 使 用 块 格式 如 图 9-35 中 所 示 的 隐 式 空闲 链表 。2) 块 大 小 向 上 舍 入 

为 最 接近 的 8 字 节 的 倍数 。 


交大 小 (十进制 字 书 ) 岂 严 部 (十 六 浊 抽 ) 


malloct(1) 





malloc(12) 


malloc(13) 





9.9.7 放置 已 分 配 的 块 
当 一 个 应 用 请 求 一 个 & 字 节 的 块 时 ， 分 配器 搜索 空闲 链表 ， 查 找 一 个 足够 大 可 以 放置 
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所 请 求 块 的 空闲 块 。 分 配器 执行 这 种 搜索 的 方式 是 由 放置 策略 (Placement policy) 确 定 的 。 
一 些 常 见 的 策略 是 首次 适 配 (Cfirst fit)、 下 一 fit) 和 最 佳 适 配 (best fit) 。 

首次 适 配 从 头 开 始 搜索 空闲 链表 ， 选 择 第 一 个 合适 的 空闲 块 。 下 一 次 适 配 和 首次 适 配 
很 相似 ， 由 市 计 不 尖 凡 析 者 站 时 失 开 类 村 水 挤 乾 ， 而 是 从 上 一 次 查询 结束 的 地 方 开 始 。 
最 佳 适 配 检查 每 个 空闲 块 ， 选 择 适 合 所 需 请 求 大 小 的 最 小 空闲 块 。 

首次 适 配 的 优点 是 它 趋 向 于 将 大 的 空闲 块 保留 在 链表 的 后 面 。 缺 点 是 它 趋向 于 在 徘 近 
链表 起 始 处 留 下 小 空闲 块 的 “碎片 >， 这 就 增加 了 对 较 大 块 的 搜索 时 间 。 下 一 次 适 配 是 由 
Donald Knuth 作为 首次 适 配 的 一 种 代替 品 最 早 提出 的 ， 源 于 这 样 一 个 想法 : 如 果 我 们 上 
一 次 在 某 个 空闲 块 里 已 经 发 现 了 一 个 匹配 ， 那 么 很 可 能 下 一 次 我 们 也 能 在 这 个 剩余 块 中 发 
现 匹 配 。 下 一 次 适 配 比 首次 适 配 运行 起 来 明显 要 快 一 些 ， 尤其 是 当 链 表 的 前 面 布 满 了 许多 
小 的 碎片 时 。 然 而 ， 一 些 研究 表明 ， 下 一 次 适 配 的 内 存 利 用 率 要 比 首次 适 配 低 得 多 。 研 究 
还 表明 最 佳 适 配 比 首次 适 配 和 下 一 次 适 配 的 内 存 利用 率 都 要 高 一 些 。 然 而 ， 在 简单 空闲 链 
表 组 织 结 构 中 ， 比 如 隐 式 空闲 链表 中 ， 使 用 最 佳 适 配 的 缺点 是 它 要求 对 堆 进行 彻底 的 搜 
索 。 在 后 面 ， 我 们 将 看 到 更 加 精细 复杂 的 分 离 式 空闲 链表 组 织 ， 它 接近 于 最 佳 适 配 策略 ， 
不 需要 进行 彻底 的 堆 搜 索 。 


9.9.8 分 割 空 闲 块 


一 旦 分 配器 找到 一 个 匹配 的 空闲 块 ， 它 就 必须 做 另 一 个 策略 决定 ， 那 就 是 分 配 这 个 空 
闲 块 中 多 少 空间 。 一 个 选择 是 用 整个 空闲 块 。 虽 然 这 种 方式 简单 而 快捷 ， 但 是 主要 的 缺点 
就 是 它 会 造成 内 部 碎片 。 如 果 放 置 策略 趋向 于 产生 好 的 匹配 ， 那 么 额外 的 内 部 碎片 也 是 可 
以 接受 的 。 

然而 ， 如 果 匹 配 不 太 好 ， 那 么 分 配器 通常 会 选择 将 这 个 空闲 块 分 割 为 两 部 分 。 第 一 部 
分 变 成 分 配 块 ， 而 剩 下 的 变 成 一 个 新 的 空闲 块 。 图 9-37 展示 了 分 配 郑 如 何 分 割 图 9-36 中 
8 个 字 的 空闲 块 ， 来 满足 一 个 应 用 的 对 堆 内 存 3 个 字 的 请 求 。 


Fa 
ee 一 一 一 





图 9-37 ”分割 一 个 空闲 块 ， 以 满足 一 个 3 个 字 的 分 配 请 求 。 阴 影 部 分 是 已 分 配 块 。 
没有 阴影 的 部 分 是 空闲 块 。 头 部 标记 为 (大 小 ( 字 节 )/ 已 分 配 位 ) 


9.9.9 获取 额外 的 堆 内 存 


如 果 分 配器 不 能 为 请 求 块 找到 合适 的 空闲 块 将 发 生 什么 呢 ? 一 个 选择 是 通过 合并 那些 在 
内 存 中 物理 上 相 邻 的 空闲 块 来 创建 一 些 更 大 的 空闲 块 (在 下 一 节 中 描述 )。 然 而 ， 如 有 果 这 样 还 
是 不 能 生成 一 个 足够 大 的 块 ， 或 者 如 果 空 闲 块 已 经 最 大 程度 地 合并 了 ， 那 么 分 配 右 就 会 通过 
调用 sbrk 函数 ， 向 内 核 请 求 额 外 的 堆 内 存 。 分 配 顺 将 额外 的 内 存 转化 成 一 个 大 的 空闲 块 ， 
将 这 个 块 插入 到 空闲 链表 中 ， 然 后 将 被 请 求 的 块 放 置 在 这 个 新 的 空闲 块 中 。 


9.9. 10 合并 空闲 块 


当 分 配器 释放 一 个 已 分 配 块 时 ， 可 能 有 其 他 空闲 块 与 这 个 新 释放 的 空闲 块 相 邻 。 这 些 
邻接 的 空闲 块 可 能 引起 一 种 现象 ， 叫 做 假 碎 片 (fault fragmentation)， 就 是 有 许多 可 用 的 
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空闲 块 被 切割 成 为 小 的 、 无 法 使 用 的 空闲 块 。 比 如 ， 图 9-38 展示 了 释放 图 9-37 中 分 配 的 
块 后 得 到 的 结果 。 结 果 是 两 个 相 邻 的 空闲 块 ， 每 一 个 的 有 效 载 荷 都 为 3 个 字 。 因 此 ， 接 下 
来 一 个 对 4 字 有 效 载 荷 的 请 求 就 会 失败 ， 即 使 两 个 空闲 块 的 合计 大 小 足够 大 ， 可 以 满足 这 
个 请 还 





未 使 用 的 RT 
es 国 | he To | | | [TT lm TT 国 *, 


图 9-38 假 碎 片 的 示例 。 阴 影 部 分 是 已 分 配 块 。 没 有 阴影 的 部 分 是 空闲 块 。 
头 部 标记 为 (大 小 ( 字 节 )/ 已 分 配 位 ) 

为 了 解决 假 碎片 问题 ， 任 何 实际 的 分 配器 都 必须 合并 相 邻 的 空闲 块 ， 这 个 过 程 称 为 合 
并 (coalescing)。 这 就 出 现 了 一 个 重要 的 策略 决定 ， 那 就 是 何 时 执行 合并 。 分 配器 可 以 选 
择 立 即 合并 (immediate coalescing)， 也 就 是 在 每 次 一 个 块 被 释放 时 ， 就 合并 所 有 的 相 邻 
块 。 或 者 它 也 可 以 选择 推迟 合并 (deferred coalescing)， 也 就 是 等 到 某 个 稍 晚 的 时 候 再 合并 
空闲 块 。 例 如 ， 分 配器 可 以 推迟 合并 ， 直 到 某 个 分 配 请 求 失败 ， 然 后 扫描 整个 堆 ， 合 并 所 
有 的 空闲 块 。 

立即 合并 很 简单 明了 ， 可 以 在 常数 时 间 内 执行 完成 ， 但 是 对 于 某 些 请 求 模式 ， 这 种 方 
式 会 产生 一 种 形式 的 拌 动 ， 块 会 反复 地 合并 ， 然 后 马上 分 割 。 例 如 ， 在 图 9-38 中 ， 反 复 
地 分 配 和 释放 一 个 3 个 字 的 块 将 产生 大 量 不 必要 的 分 割 和 合并 。 在 对 分 配器 的 讨论 中 ， 我 
们 会 假设 使 用 立即 合并 ,但 是 你 应 该 了 解 ， 快 速 的 分 配器 通常 会 选择 某 种 形式 的 推迟 
合并 。 


9.9. 11 遍 边 界 标记 的 合并 


分 配器 是 如 何 实现 合并 的 ? 让 我 们 称 想 要 释放 的 块 为 当前 块 。 那 么 ， 合 并 (内 存 中 的 ) 
下 一 个 空闲 块 很 简单 而 且 高 效 。 当 前 块 的 头 部 指向 下 一 个 块 的 头 部 ， 可 以 检查 这 个 指针 以 
判断 下 一 个 块 是 否 是 空闲 的 。 如 果 是 ， 就 将 它 的 大 小 简单 地 加 到 当前 块头 部 的 大 小 上 ， 这 
两 个 块 在 常数 时 间 内 被 合并 。 

但 是 我 们 该 如 何 合并 前 面 的 块 呢 ? 给 定 一 个 带头 部 的 隐 式 空闲 链表 ， 唯 一 的 选择 将 是 
搜索 整个 链表 ， 记 住 前 面 块 的 位 置 ， 直 到 我 们 到 达 当 前 块 。 使 用 隐 式 空闲 链表 ， 这 意味 着 
每 次 调用 free 需要 的 时 间 都 与 堆 的 大 小 成 线性 关系 。 即 使 使 用 更 复杂 精细 的 空闲 链表 组 
织 ， 搜 索 时 间 也 不 会 是 常数 。 

Knuth 提出 了 一 种 聪明 而 通用 的 技术 ， 叫 做 也 人 
边界 标记 (boundary tag)， 人 允许 在 常数 时 间 内 进行 头 部 a = 000: 空闲 的 
对 前 面 块 的 合并 。 这 种 思想 ， 如 图 9-39 所 示 ， 是 
在 每 个 块 的 结尾 处 添加 一 个 脚 部 (footer， 边 界 标 
记 )， 其 中 脚 部 就 是 头 部 的 一 个 副本 。 如 果 每 个 块 
包括 这 样 一 个 脚 部 ， 那 么 分 配器 就 可 以 通过 检查 
它 的 脚 部 ， 判 断 前 面 一 个 块 的 起 始 位 置 和 状态 ， 填充 (可 选 ) 
这 个 脚 部 总 是 在 距 当 前 块 开 始 位 置 一 个 字 的 距离 。 

考虑 当 分 配器 释放 当前 块 时 所 有 可 能 存在 的 所 大 小 | a 
情况 : 图 9-39 ”使 用 边界 标记 的 堆 块 的 格式 






有 效 载荷 
(只 包括 已 分 配 的 块 ) 
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1) 前 面 的 块 和 后 面 的 块 都 是 已 分 配 的 。 

2) 前 面 的 块 是 已 分 配 的 ， 后 面 的 块 是 空闲 的 。 
3) 前 面 的 块 是 空闲 的 ， 而 后 面 的 块 是 已 分 配 的 。 
4) 前 面 的 和 后 面 的 块 都 是 空闲 的 。 

图 9-40 展示 了 我 们 如 何 对 这 四 种 情况 进行 合并 。 






情况 1 

| 
n+mt+m2 | f | 

情况 3 情况 4 


图 9-40 ”使 用 边界 标记 的 合并 (情况 1: 前 面 的 和 后 面 块 都 已 分 配 。 情 况 2: 前 面 块 已 分 配 ， 后 面 
块 空闲 。 情 况 3: 前 面 块 空闲 ， 后 面 块 已 分 配 。 人 情况 4: 后 面 块 和 前 面 块 都 空闲 ) 


在 情况 1 中 ， 两 个 邻接 的 块 都 是 已 分 配 的 ， 因 此 不 可 能 进行 合并 。 所 以 当前 块 的 状态 
只 是 简单 地 从 已 分 配 变 成 空闲 。 在 情况 2 中 ， 当 前 块 与 后 面 的 块 合并 。 用 当前 块 和 后 面 块 
的 大 小 的 和 来 更 新 当前 块 的 头 部 和 后 面 块 的 脚 部 。 在 情况 3 中 ， 前 面 的 块 和 当前 块 合并 。 
用 两 个 块 大 小 的 和 来 更 新 前 面 块 的 头 部 和 当前 块 的 脚 部 。 在 情况 4 中， 村 合并 所 有 的 三 个 
块 形 成 一 个 单独 的 空闲 块 ， 用 三 个 块 大 小 的 和 来 更 新 前 面 块 的 头 部 和 后 面 抉 的 脚 部 。 在 每 
种 情况 中 ， 合 并 都 是 在 常数 时 间 内 完成 的 。 

边界 标记 的 概念 是 简单 优雅 的 ， 它 对 许多 不 同类 型 的 分 配器 和 空闲 链表 组 织 都 是 通用 
的 。 然 而 ， 它 也 存在 一 个 潜在 的 缺陷 。 它 要 求 每 个 块 都 保持 一 个 头 部 和 一 个 脚 部 ， 在 应 用 
程序 操作 许多 个 小 块 时 ， 会 产生 显著 的 内 存 开 销 。 例 如 ， 如 果 一 个 图 形 应 用 通过 反复 调用 
malloc 和 free 来 动态 地 创建 和 销毁 图 形 节 点 ， 并 且 每 个 图 形 节 点 都 只 要 求 两 个 内 存 字 ， 
那么 头 部 和 肢 部 将 占用 每 个 已 分 配 块 的 一 半 的 空间 。 

幸运 的 是 ， 有 一 种 非常 聪明 的 边界 标记 的 优化 方法 ， 能 够 使 得 在 已 分 配 块 中 不 再 需要 
脚 部 。 回 想 一 下 ， 当 我 们 试图 在 内 存 中 合并 当前 块 以 及 前 面 的 块 和 后 面 的 块 时 ， 只 有 在 前 
面 的 块 是 空 闪 时 ， 才 会 需要 用 到 它 的 脚 部 。 如 果 我 们 把 前 面 块 的 已 分 配 / 空 闲 位 存放 在 当 
前 块 中 多 出 来 的 低位 中 ， 那 么 已 分 配 的 块 就 不 需要 脚 部 了 ， 这 样 我 们 就 可 以 将 这 个 多 出 来 
的 空间 用 作 有 效 载荷 了 。 不 过 请 注意 ， 空 闲 块 仍然 需要 脚 部 。 
攻 s 练习 题 9.7 确定 下 面 每 种 对 齐 要 求 和 块 格式 的 组 合 的 最 小 的 块 大 小 。 假 设 : 隐 式 空 

闲 链表 ， 不 允许 有 效 载荷 为 零 ， 头 部 和 脚 部 存放 在 4 字 节 的 字 中 。 
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头 部 和 肢 部 | 
头 部 和 I 部 | | 
部 和 胸部 | | 
。 双 字 | 关于, 但 是 没有 胸部 | 8 和 肢 郭 | 


9.9. 12 综合 : 实现 一 个 简单 的 分 配器 


构造 一 个 分 配器 是 一 件 富 有 挑战 性 的 任务 。 设 计 空 间 很 大 ， 有 多 种 块 格式 、 空 闲 链表 
格式 ， 以 及 放置 、 分 割 和 合并 策略 可 供 选 择 。 另 一 个 挑战 就 是 你 经 常 被 迫 在 类 型 系统 的 安 
全 和 熟悉 的 限定 之 外 编程 ， 依 赖 于 容易 出 错 的 指针 强制 类 型 转换 和 指针 运算 ， 这 些 操作 都 
属于 典型 的 低层 系统 编程 。 

虽然 分 配器 不 需要 大 量 的 代码 ， 但 是 它们 也 还 是 细微 而 不 可 忽视 的 。 熟 悉 诸 如 
C++ 或 者 Java 之 类 高 级 语言 的 学 生 通 篆 在 他 们 第 一 次 遇 到 这 种 类 型 的 编程 时 ， 会 遭遇 
一 个 概念 上 的 障碍 。 为 了 帮助 你 清除 这 个 障碍 ， 我 们 将 基于 隐 式 空闲 链表 ， 使 用 立即 边 
界 标记 合并 方式 ， 从 头 至 尾 地 讲述 一 个 简单 分 配器 的 实现 。 最 大 的 块 大 小 为 2” =4GB。 
代码 是 64 位 干净 的 ， 即 代码 能 不 加 修改 地 运行 在 32 位 (gcc -m32) 或 64 位 (gcc -m64) 的 
进程 中 。 

1. 通用 分 配器 设计 

我 们 的 分 配器 使 用 如 图 9-41 所 示 的 memlib.c 包 所 提供 的 一 个 内 存 系统 模型 。 模 型 的 
目的 在 于 允许 我 们 在 不 干涉 已 存在 的 系统 层 malloc 包 的 情况 下 ， 运 行 分 配器 。 

mem init 函数 将 对 于 堆 来 说 可 用 的 虚拟 内 存 模 型 化 为 一 个 大 的 、 双 字 对 齐 的 字 节 
数组 。 在 mem heap 和 mem brk 之 间 的 字 节 表示 已 分 配 的 虚拟 内 存 。mem brk 之 后 的 字 
节 表 示 未 分 配 的 虚拟 内 存 。 分 配器 通过 调用 mem sbrk 图 数 来 请 求 额 外 的 堆 内 存 ， 这 个 
晒 数 和 系统 的 sbrk 函数 的 接口 相同 ， 而 且 语 义 也 相同 ， 除 了 它 会 拒绝 收缩 堆 的 请 求 。 

分 配器 包含 在 一 个 源 文 件 中 (mm.c)， 用 户 可 以 编译 和 链接 这 个 源 文 件 到 他 们 的 应 用 之 
中 。 分 配 融 和 输出 三 个 函数 到 应 用 程序 : 


1 extern int mm_init(void); 
2 extern void *mm_malloc (size_t size); 
3 extern void mm_free (void *ptr); 


mm init 图 数 初 始 化 分 配器 ， 如 果 成 功 就 返回 0， 和 否则 就 返回 一 1。mm malloc 和 mm 
free 图 数 与 它们 对 应 的 系统 函数 有 相同 的 接口 和 语义 。 分 配器 使 用 如 图 9-39 所 示 的 块 格 
式 。 最 小 块 的 大 小 为 16 字 节 。 空 闲 链表 组 织 成 为 一 个 隐 式 空闲 链表 ， 具 有 如 图 9-42 所 示 
的 恒定 形式 。 

第 一 个 字 是 一 个 双 字 边界 对 齐 的 不 使 用 的 填充 字 。 填 充 后面 紧 跟着 一 个 特殊 的 序言 块 
(prologue block)， 这 是 一 个 8 字 节 的 已 分 配 块 ， 只 由 一 个 头 部 和 一 个 脚 部 组 成 。 序 言 块 
是 在 初始 化 时 创建 的 ， 并 且 永 不 释放 。 在 序言 块 后 紧 跟 的 是 零 个 或 者 多 个 由 malloc 或 者 
free 调用 创建 的 普通 块 。 堆 总 是 以 一 个 特殊 的 结尾 块 (epilogue block) 来 结束 ， 这 个 块 是 
一 个 大 小 为 零 的 已 分 配 块 ， 只 由 一 个 头 部 组 成 。 序 言 块 和 结尾 块 是 一 种 消除 合并 时 边界 条 
件 的 技巧 。 分 配器 使 用 一 个 单独 的 私有 (static) 全 局 变量 (heap listp)， 它 总 是 指向 序 
言 块 。( 作 为 一 个 小 优化 ， 我 们 可 以 让 它 指向 下 一 个 块 ， 而 不 是 这 个 序言 块 。) 
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code/vm/malloc/memlib.c 
1 /* Private global variables */ 
2 static char *mem_heap; /* Points to first byte of heap */ 
3 static char *mem_brk; /* Points to last byte of heap plus 1 */ 
4 static char *mem_max_addr; /* Max legal heap addr plus 1*/ 
5 
6 /* 
7 * mem_init - Initialize the memory system model 
8 */ 
9 void mem_init(void) 
10 二 
11 mem_heap = (char *)Malloc(MAX_HEAP); 
12 mem_brk = (char *)mem._heap; 
13 mem_max_addr = (char *) (mem_heap + MAX_HEAP); 
14 } 
下 
16 /* 
iz * mem._sbrk - Simple model of the sbrk function. Extends the heap 
18 * by incr bytes and returns the start address of the new area. In 
19 * this model, the heap cannot be shrunk. 
20 */ 
21 void *mem_sbrk(int incr) 
3 时 
23 char *old_brk = mem_brk; 
24 
25 if ( (incr < 0) || ((mem_brk + incr) > mem_max_addr)) { 
26 errno = 上 ENOMEM ; 
27 fprintf (stderr, "ERROR: mem_sbrk failed. Ran out of memory...\n"); 
28 return (void *)-1; 
29 } 
30 mem_brk += incr; 
31 return (void *)old_brk; 
32 3 
code/vm/malloc/memlib.c 
图 9-41 memlib.c: 内 存 系 统 模型 
序言 块 普通 块 1 普通 块 2 普通 块 n 结尾 块 hdr 
ee et id pee A 
tw We 一 一 一 | 
起 始 到 Es >= ; 对 齐 的 





static char *heap listp 


图 9-42 ” 隐 式 空闲 链表 的 恒定 形式 


2. 操作 空闲 链表 的 基本 常数 和 宏 

图 9-43 展示 了 一 些 我 们 在 分 配器 编码 中 将 要 使 用 的 基本 常数 和 宏 。 第 2 一 4 行 定 义 了 
一 些 基本 的 大 小 常数 : 字 的 大 小 (WSIZE) 和 双 字 的 大 小 (DSIZE)， 初 始 空 闲 块 的 大 小 和 扩 
展 堆 时 的 默认 大 小 (CCHUNKSIZE) 。 

在 空闲 链表 中 操作 头 部 和 脚 部 可 能 是 很 麻烦 的 ， 因 为 它 要 求 大 量 使 用 强制 类 型 转换 和 指针 
运算 。 因 此 ， 我 们 发 现 定义 一 小 组 宏 来 访问 和 遍历 空闲 链表 是 很 有 帮助 的 (第 9 一 25 行 )。PACK 
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宏 ( 第 9 行 ) 将 大 小 和 已 分 配 位 结合 起 来 并 返回 一 个 值 ， 可 以 把 它 存放 在 头 部 或 者 脚 部 中 。 


code/vym/malloc/mm.c 
/* Basic constants and macros */ 
#define WSIZE 和 /* Word and header/footer size (bytes) */ 
#define DSIZE 8 /* Double word size (bytes) */ 
#define CHUNKSIZE (1<<12) /* Extend heap by this amount (bytes) */ 


#define MAX(x, y) ((x) > (y)? (x) : (y)) 


/* Pack a size and allocated bit into a word */ 
#define PACK(size, alloc) ((size) | (alloc)) 


DDN WO 一 


11 /* Read and write a word at address P */ 
12  #define GET(P) (*(unsigned int *) (p)) 
13  #define PUT(p, val) (*(unsigned int *)(p) = (val)) 


15 /* Read the size and allocated fields from address p */ 
16  #define GET_SIZE(p) (GET(p) & ~Ox7) 
17  #define GET_ALLOC(p) (GET(p) & Ox1) 


19 /* Given block ptr bp, compute address of its header and footer */ 
20  #define HDRP (bp) ((char *) (bp) - WSIZE) 
21  #define FTRP (bp) ((char *) (bp) + GET_SIZE(HDRP(bp)) - DSIZE) 


23 /* Given block ptr bp, compute address of next and previous blocks */ 
24  #define NEXT_BLKP(bp) ((char *) (bp) + GET_SIZE(((char *) (bp) - WSIZE))) 
25  #define PREV_BLKP(bp) ((char *) (bp) - GET_SIZE(((char *) (bp) - DSIZE))) 


code/vm/malloc/mm.c 
图 9-43 操作 空闲 链表 的 基本 常数 和 宏 


GET 宏 ( 第 12 行 ) 读 取 和 返回 参数 p 引用 的 字 。 这 里 强制 类 型 转换 是 至 关 重 要 的 。 参 
数 Pb 典型 地 是 一 个 (viod* ) 指 针 ， 不 可 以 直接 进行 间接 引用 。 类 似 地 ，PUT 宏 ( 第 13 行 ) 
将 val 存放 在 参数 p 指向 的 字 中 。 

GET_SIZE 和 GET_ALLOC 寥 (第 16~17 行 ) 从 地 址 p 处 的 头 部 或 者 脚 部 分 别 返 回 大 
小 和 已 分 配 位 。 剩 下 的 宏 是 对 块 指针 (block pointer， 用 bp 表示 ) 的 操作 ， 块 指针 指 回 第 一 
个 有 效 载 荷 字 节 。 给 定 一 个 块 指针 bp，HDRP 和 FTRP 宏 ( 第 20 一 21 行 ) 分 别 返 回 指向 这 
个 块 的 头 部 和 脚 部 的 指针 。NEXT_BLKP 和 PREV_BLKP 宏 ( 第 24 一 25 行 ) 分 别 返 回 指向 
后 面 的 块 和 前 面 的 块 的 块 指针 。 

可 以 用 多 种 方式 来 编辑 宏 ， 以 操作 空闲 链表 。 比 如 ， 给 定 一 个 指 问 当前 块 的 指针 bp， 
我 们 可 以 使 用 下 面 的 代码 行 来 确定 内 存 中 后 面 的 块 的 大 小 : 

size_t size = GET_SIZE(HDRP(NEXT_BLKP (bp))); 


3. 创建 初始 空闲 链表 

在 调用 mm malloc 或 者 mm free 之 前 ， 应 用 必须 通过 调用 mm_init 困 数 来 初始 化 堆 
( 见 图 9-44) 。 

mm init 因数 从 内 存 系统 得 到 4 个 字 ， 并 将 它们 初始 化 ， 创 建 一 个 空 的 空闲 链表 (第 4 
一 10 行 )。 然 后 它 调 用 extend heap 函数 (图 9-45)， 这 个 函数 将 堆 扩 展 CHUNKSIZE 字 
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节 ， 并 且 创 建 初始 的 空闲 块 。 此 刻 ， 分 配器 已 初始 化 了 ， 并 且 准 备 好 接受 来 目 应 用 的 分 配 
和 释放 请 求 。 


code/vm/malloc/mm.c 
1 int mm_init(void) 
2 
3 /* Create the initial empty heap */ 
4 if ((heap._listp = mem_sbrk(4*WSIZE)) == (void *)-1) 
5 Tilt 二 了 和 
6 PUT(heap_listp, 0); /* Alignment padding */ 
7 PUT (heap_listp + (1*WSIZE), PACK(DSIZE, 1)); /* Prologue header */ 
8 PUT(heap_listp + (2*WSIZE), PACK(DSIZE, 1)); /* Prologue footer */ 
9 PUT (heap_listp + (3*WSIZE), PACK(0O, 1)); /* Epilogue header */ 
10 heap_listp += (2*WSIZE); 
11 
12 /* Extend the empty heap with a free block of CHUNKSIZE bytes */ 
13 if (extend_ heap(CHUNKSIZE/WSIZE) == NULL) 
14 return. 一 外， 
15 return 0; 
16 
code/vm/malloc/mm.c 
图 9-44 mm init: 创建 带 一 个 初始 空闲 块 的 堆 
code/vm/malloc/mm.c 
] static void *extend_heap(size_t Words ) 
2 忒 
3 char *bp; 
4 size_t size; 
5 
6 /* Allocate an even number of words to maintain alignment */ 
7 size = (words % 2) ?了 (words+1) * WSIZE : words * WSIZE; 
8 if ((long)(bp = mem_sbrk(size)) == -1) 
5 return NULL ; 
10 
11 /* Initialize free block header/footer and the epilogue header */ 
12 PUT (HDRP (bp), PACK(size, 0)); /* Free block header */ 
13 PUT(FTRP (bp), PACK(size, 0)); /* Free block footer */ 
14 PUT(HDRP (NEXT_BLKP (bp)), PACK(O0, 1)); /* New epilogue header */ 
15 
16 /* Coalesce if the previous block was free */ 
17 return coalesce(bp); 
18 } 


code/vm/malloc/mm.c 
图 9-45 ” extend heap: 用 一 个 新 的 空闲 块 扩展 堆 


extend heap 函数 会 在 两 种 不 同 的 环境 中 被 调用 : 1) 当 堆 被 初始 化 时 ; 2) 当 mm _mal- 
loc 不 能 找到 一 个 合适 的 匹配 块 时 。 为 了 保持 对 齐 ，extend heap 将 请 求 大 小 品 上 舍 入 为 
最 接近 的 2 字 (8 字 节 ) 的 倍数 ， 然 后 向 内 存 系统 请 求 额 外 的 堆 空 间 ( 第 7 一 9 行 )。 

extend heap 函数 的 剩余 部 分 (第 12~17 行 ) 有 点 儿 微 妙 。 堆 开始 于 一 个 双 字 对 齐 的 
边界 ， 并 且 每 次 对 extend heap 的 调用 都 返回 一 个 块 ， 该 块 的 大 小 是 双 字 的 整数 倍 。 因 
此 ， 对 mem sbrk 的 每 次 调用 都 返回 一 个 双 字 对 齐 的 内 存 片 ， 紧 跟 在 结尾 块 的 头 部 后 面 。 
这 个 头 部 变 成 了 新 的 空闲 块 的 头 部 (第 12 行 )， 并 且 这 个 片 的 最 后 一 个 字 变 成 了 新 的 结尾 
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块 的 头 部 (第 14 行 )。 最 后 ,在 很 可 能 出 现 的 前 一 个 堆 以 一 个 空闲 块 结束 的 情况 中 ， 我 们 


调用 coalesce 困 数 来 合并 两 个 空闲 块 ， 并 返回 指向 合并 后 的 块 的 块 指针 (第 17 行 )。 


4. 释放 和 合并 块 
应 用 通过 调用 mm free 函数 (图 9-46)， 来 释放 一 个 以 前 分 配 的 块 ， 这 个 也 数 释放 所 请 求 
的 块 (bp)， 然 后 使 用 9. 9. 11 节 中 描述 的 边界 标记 合并 技术 将 之 与 邻接 的 空闲 块 合并 起 来 。 


图 9-46 


code/vm/malloc/mm.c 


void mm_free(void *bp) 


于 


size_t size = GET_SIZE(HDRP(bp) ) ; 


PUT (HDRP (bp), PACK(size, 0)); 
PUT(FTRP (bp), PACK(size, 0)); 
coalesce(bp); 


static void *coalesce(void *bp) 


size_t prev_alloc = GET_ALLOC(FTRP (PREV_BLKP (bp) ) ) ; 
size_t next_alloc = GET_ALLOC(HDRP (NEXT_BLKP(bp) )) ; 


size_t size = GET_SIZE(HDRP(bp) ) ; 


if (prev_alloc && next_alloc) { /* Case 1 
return bp; 

} 

else if (prev_alloc && !Inext_alloc) 1 /* Case 2 


size += GET_SIZE(HDRP (NEXT_BLKP (bp))); 
PUT (HDRP (bp), PACK(size, 0)); 
PUT(FTRP (bp), PACK(size,0)); 


else if (Iprev_alloc && next_alloc) { /* Case 3 */ 
size += GET_SIZE(HDRP (PREV_BLKP (bp))); 
PUT(FTRP (bp), PACK(size, 0)); 
PUT (HDRP (PREV_BLKP (bp)), PACK (size, 0)); 
bp = PREV_BLKP (bp); 
} 
else { /* Case 4 */ 
size += GET_SIZE(HDRP(PREV_BLKP(bp))) + 
GET_SIZE (FTRP (NEXT_BLKP (bp) ) ) ; 
PUT (HDRP (PREV_BLKP (bp)), PACK(size, 0)); 
PUT(FTRP (NEXT_BLKP (bp)), PACK(size, 0)); 
bp = PREV_BLKP (bp); 
} 
return bp; 
code/vm/malloc/mm.c 


*/ 


mm_free: 释放 一 个 块 ， 并 使 用 边界 标记 合并 将 之 与 所 有 的 邻接 空闲 块 在 常数 时 间 内 合并 
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coalesce 基数 中 的 代码 是 图 9-40 中 勾画 的 四 种 情况 的 一 种 简单 直接 的 实现 。 这 里 也 
有 一 个 微妙 的 方面 。 我 们 选择 的 空闲 链表 格式 ( 它 的 序言 块 和 结尾 块 总 是 标记 为 已 分 配 ) 允 
许 我 们 忽略 潜在 的 麻烦 边界 情况 ， 也 就 是 ， 请求 块 bp 在 堆 的 起 始 处 或 者 是 在 堆 的 结尾 处 。 
如 果 没 有 这 些 特 殊 块 ， 代 码 将 混乱 得 多 ， 更 加 容易 出 错 ， 并 且 更 慢 ， 因 为 我 们 将 不 得 不 在 
每 次 释放 请 求 时 ， 都 去 检查 这 些 并 不 和 常见 的 边界 情况 。 

5. 分 配 块 

一 个 应 用 通过 调用 mm malloc 图 数 ( 见 图 9-47) 来 向 内 存 请 求 大 小 为 size 字 节 的 块 。 
在 检查 完 请 求 的 真 假 之 后 ， 分 配器 必须 调整 请 求 块 的 大 小 ， 从 而 为 头 部 和 脚 部 留 有 空间 ， 
并 满足 双 字 对 齐 的 要 求 。 第 12 一 13 行 强 制 了 最 小 块 大 小 是 16 字 节 : 8 字 节 用 来 满足 对 齐 
要 求 ， 而 另外 8 个 用 来 放 头 部 和 脚 部 。 对 于 超过 8 字 节 的 请 求 ( 第 15 行 )， 一 般 的 规则 是 
加 上 开销 字 节 ， 然 后 同上 伟人 到 最 接近 的 8 的 整数 倍 。 


code/vm/malloc/mm.c 
] void *mm_malloc(size_t size) 
2 长 
3 size_t asize; /* Adjusted block size */ 
4 size_t extendsize; /* Amount to extend heap if no fit */ 
5 char *bp; 
6 
7 /* Ignore spurious requests */ 
8 if (size == 0) 
9 return NULL ; 


11 /* Adjust block size to include overhead and alignment reqs. */ 
12 if (size <= DSIZE) 


13 asize = 2*DSIZE; 

14 else 

15 asize = DSIZE * ((size + (DSIZE) + (DSIZE-1)) / DSIZE) ; 
16 

17 /* Search the free list for a fit */ 

18 if ((bp = find_fit(asize)) != NULL) { 

19 place(bp, asize); 

20 return bp ; 

21 } 

22 

23 /* No fit found. Get more memory and place the block */ 
24 extendsize = MAX(asize,CHUNKSIZE) ; 

25 if ((bp = extend_heap(extendsize/WSIZE)) == NULL) 

26 return NULL ; 

27 place(bp, asize); 

28 return bp; 

29 } 


code/vm/malloc/mm.c 
图 9-47 mm malloc: 从 空闲 链表 分 配 一 个 块 
一 且 分 配 句 调整 了 请 求 的 大 小 ， 它 就 会 搜索 空 亲 链表， 寻找 一 个 合适 的 空闲 块 (第 18 


行 )。 如 果 有 合适 的 ， 那 么 分 配 天 就 放置 这 个 请 求 块 ， 并 可 选 地 分 割 出 多 余 的 部 分 (第 19 
行 )， 然 后 返回 新 分 配 块 的 地 址 。 
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如 果 分 配器 不 能 够 发 现 一 个 匹配 的 块 ， 那 么 就 用 一 个 新 的 空闲 块 来 扩展 堆 ( 第 24 一 26 
行 )， 把 请 求 块 放置 在 这 个 新 的 空闲 块 里 ， 可 选 地 分 割 这 个 块 (第 27 行 )， 然 后 返回 一 个 指 
针 ， 指 向 这 个 新 分 配 的 块 。 

证 强 练习 题 9.8 为 9.9.12 节 中 描述 的 简单 分 配器 实现 一 个 find fit 函数 。 


static void *find fit(size t asize) 


你 的 解答 应 该 对 隐 式 空闲 链表 执行 首次 适 配 搜索 。 
区 练习 题 9.9 为 示例 的 分 配器 编写 一 个 Place 函数 。 


static void place(void *bp, size_t asize) 


你 的 解答 应 该 将 请 求 块 放 置 在 空闲 块 的 起 始 位 置 ， 只 有 当 剩 余部 分 的 大 小 等 于 或 
者 超出 最 小 块 的 大 小 时 ， 才 进行 分 割 。 


9.9.13 显 式 空 闲 链表 


隐 式 空闲 链表 为 我 们 提供 了 一 种 介绍 一 些 基 本 分 配器 概念 的 简单 方法 。 然 而 ， 因 为 块 
分 配 与 堆 块 的 总 数 呈 线性 关系 ， 所 以 对 于 通用 的 分 配器 ， 隐 式 空闲 链表 是 不 适合 的 (尽管 
对 于 堆 块 数量 预先 就 知道 是 很 小 的 特殊 的 分 配器 来 说 它 是 可 以 的 )。 

一 种 更 好 的 方法 是 将 空闲 块 组 织 为 某 种 形式 的 显 式 数据 结构 。 因 为 根据 定义 ， 程 序 不 
需要 一 个 空闲 块 的 主体 ， 所 以 实现 这 个 数据 结构 的 指针 可 以 存放 在 这 些 空闲 块 的 主体 里 
面 。 例 如 ， 堆 可 以 组 织 成 一 个 双向 空闲 链表 ， 在 每 个 空闲 块 中 ， 都 包含 一 个 pred( 前 驱 ) 
和 succ( 后 继 ) 指 针 ， 如 图 9-48 所 示 。 
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图 9-48 ”使 用 双 癌 空闲 链表 的 堆 块 的 格式 


使 用 双向 链表 而 不 是 隐 式 空闲 链表 ， 使 首次 适 配 的 分 配 时 间 从 块 总 数 的 线性 时 间 减 少 
到 了 空闲 块 数量 的 线性 时 间 。 不 过 ， 释 放 一 个 块 的 时 间 可 以 是 线性 的 ， 也 可 能 是 个 常数 ， 
这 取决 于 我 们 所 选择 的 空闲 链表 中 块 的 排序 策略 。 

一 种 方法 是 用 后 进 先 出 (LIFO) 的 顺序 维护 链表 ， 将 新 释放 的 块 放置 在 链表 的 开始 处 。 
使 用 LIFO 的 顺序 和 首次 适 配 的 放置 策略 ， 分 配器 会 最 先 检 查 最 近 使 用 过 的 块 。 在 这 种 情 
况 下 ， 释 放 一 个 块 可 以 在 常数 时 间 内 完成 。 如 果 使 用 了 边界 标记 ， 那 么 合并 也 可 以 在 常数 
时 间 内 完成 。 

男 一 种 方法 是 按照 地 址 顺序 来 维护 链表 ， 其 中 链表 中 每 个 块 的 地 址 都 小 于 它 后 继 的 地 
址 。 在 这 种 情况 下 ， 释 放 一 个 块 需要 线性 时 间 的 搜索 来 定位 合适 的 前 驱 。 平 衡 点 在 于 ， 按 
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照 地 址 排序 的 首次 适 配 比 LIFO 排序 的 首次 适 配 有 更 高 的 内 存 利用 率 ， 接 近 最 佳 适 配 的 利 
用 率 。 

一 般 而 言 ， 显 式 链表 的 缺点 是 空闲 块 必须 足够 大 ， 以 包含 所 有 需要 的 指针 ， 以 及 头 部 
和 可 能 的 脚 部 。 这 就 导致 了 更 大 的 最 小 块 大 小 ， 也 潜在 地 提高 了 内 部 碎片 的 程度 。 


9.9. 14 分离 的 空闲 链表 


就 像 我 们 已 经 看 到 的 ， 一 个 使 用 单 向 空闲 块 链表 的 分 配器 需要 与 空闲 块 数量 呈 线 性 天 
系 的 时 间 来 分 配 块 。 一 种 流行 的 减少 分 配 时 间 的 方法 ， 通 稍 称 为 分 离 存 储 (segregated 
storage) ， 就 是 维护 多 个 空闲 链表 ， 其 中 每 个 链表 中 的 块 有 大 致 相等 的 大 小 。 一 般 的 思路 
是 将 所 有 可 能 的 块 大 小 分 成 一 些 等 价 类 ， 也 叫做 大 小 类 (size class) 。 有 很 多 种 方式 来 定义 
大 小 类 。 例 如 ， 我 们 可 以 根据 2 的 具 来 划分 块 大 小 : 

{1},42},(3,4},{5 一 8) (1025 ~ 2048},{2049 ~ 4096)， 14097 ~ ce) 
或 者 我 们 可 以 将 小 的 块 分 派 到 它们 自己 的 大 小 类 里 ， 而 将 大 块 按 照 2 的 震 分 类 : 
{1},{2},(3},..…,{1023},{1024},{1025 ~ 2048},{2049 一 4096) (14097 一 ce) 

分 配器 维护 着 一 个 空闲 链表 数组 ， 每 个 大 小 类 一 个 空 亲 链表， 按照 大 小 的 升序 排列 。 
当 分 配器 需要 一 个 大 小 为 对 的 块 时 ， 它 就 搜索 相应 的 空闲 链表 。 如 果 不 能 找到 合适 的 块 与 
之 匹配 ， 它 就 搜索 下 一 个 链表 ， 以 此 类 推 。 

有 关 动 态 内 存 分 配 的 文献 描述 了 几 十 种 分 离 存 储 方法 ， 主 要 的 区 别 在 于 它们 如 何 定义 
大 小 类 ， 何 时 进行 合并 ， 何 时 癌 操 作 系统 请 求 额 外 的 堆 内 存 ， 是 否 允 许 分 割 ， 等 等 。 为 了 
使 你 大 致 了 解 有 哪些 可 能 性 ， 我 们 会 描述 两 种 基本 的 方法 : 简单 分 离 存储 (simple segrega- 
ted storage) 和 分 离 适 配 (segregated fit)。 

1. 简单 分 离 存储 

使 用 简单 分 离 存 储 ， 每 个 大 小 类 的 空闲 链表 包含 大 小 相等 的 块 ， 每 个 块 的 大 小 就 是 这 
个 大 小 类 中 最 大 元 素 的 大 小 。 例 如 ， 如 果 某 个 大 小 类 定义 为 {17 一 32}， 那 么 这 个 类 的 空闲 
链表 全 由 大 小 为 32 的 块 组 成 。 

为 了 分 配 一 个 给 定 大 小 的 块 ， 我 们 检查 相应 的 空闲 链表 。 如 果 链 表 非 空 ， 我 们 简单 地 
分 配 其 中 第 一 块 的 全 部 。 空 闲 块 是 不 会 分 割 以 满足 分 配 请 求 的 。 如 果 链 表 为 空 ， 分 配器 就 
回 操 作 系 统 请 求 一 个 固定 大 小 的 额外 内 存 片 (通常 是 页 大 小 的 整数 倍 ) ， 将 这 个 片 分 成 大 小 
相等 的 块 ， 并 将 这 些 块 链接 起 来 形成 新 的 空闲 链表 。 要 释放 一 个 块 ， 分 配器 只 要 简单 地 将 
这 个 块 插 入 到 相应 的 空闲 链表 的 前 部 。 

这 种 简单 的 方法 有 许多 优点 。 分 配 和 释放 块 都 是 很 快 的 常数 时 间 操 作 。 而 且 ， 每 个 片 
中 都 是 大 小 相等 的 块 ， 不 分 割 ， 不合 并， 这 意味 着 每 个 块 只 有 很 少 的 内 存 开 销 。 由 于 每 个 
片 只 有 大 小 相同 的 块 ， 那 么 一 个 已 分 配 块 的 大 小 就 可 以 从 它 的 地 址 中 推断 出 来 。 因 为 没有 
合并 ， 所 以 已 分 配 块 的 头 部 就 不 需要 一 个 已 分 配 / 空 闲 标 记 。 因 此 已 分 配 块 不 需要 头 部 ， 
同时 因为 没有 人 合并， 它们 也 不 需要 脚 部 。 因 为 分 配 和 释放 操作 都 是 在 空闲 链表 的 起 始 处 操 
作 ， 所 以 链表 只 需要 是 单 辐 的 ， 而 不 用 是 双向 的 。 关 键 点 在 于 ， 在 任何 块 中 都 需要 的 唯一 
字段 是 每 个 空闲 块 中 的 一 个 字 的 succ 指针 ， 因 此 最 小 块 大 小 就 是 一 个 字 。 

一 个 显著 的 缺点 是 ， 简 单 分 离 存 储 很 容易 造成 内 部 和 外 部 碎片 。 因 为 空闲 块 是 不 会 被 
分 割 的 ， 所 以 可 能 会 造成 内 部 碎片 。 更 糟 的 是 ， 因 为 不 会 合并 空闲 块 ， 所 以 某 些 引用 模式 
会 引起 极 多 的 外 部 碎片 ( 见 练习 题 9. 10) 。 
世纪 练习 题 9. 10 ”描述 一 个 在 基于 简单 分 离 存储 的 分 配器 中 会 导致 严重 外 部 碎片 的 引用 模式 。 
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2. 分 离 适 配 

使 用 这 种 方法 ， 分 配 怖 维护 着 一 个 空闲 链表 的 数组 。 每 个 空闲 链表 是 和 一 个 大 小 类 相 
关联 的 ,并且 被 组 织 成 某 种 类 型 的 显 式 或 隐 式 链表 。 每 个 链表 包含 潜在 的 大 小 不 同 的 块 ， 
这 些 块 的 大 小 是 大 小 类 的 成 员 。 有 许多 种 不 同 的 分 离 适 配 分 配器 。 这 里 ， 我 们 描述 了 一 种 
简单 的 版 本 。 

为 了 分 配 一 个 块 ， 必 须 确定 请 求 的 大 小 类 ， 并 且 对 适当 的 空闲 链表 做 首次 运 配 ， 查 找 
一 个 合适 的 块 。 如 果 找 到 了 一 个 ， 那 么 就 (可 选 地 ) 分 割 它 ， 并 将 剩余 的 部 分 插入 到 适当 的 
空闲 链表 中 。 如 果 找 不 到 合适 的 块 ， 那 么 就 搜索 下 一 个 更 大 的 大 小 类 的 空闲 链表 。 如 此 重 
复 ， 直 到 找到 一 个 合适 的 块 。 如 果 空 闲 链表 中 没有 合适 的 块 ， 那 么 就 向 操作 系统 请 求 额 外 
的 堆 内 存 ， 从 这 个 新 的 堆 内 存 中 分 配 出 一 个 块 ， 将 剩余 部 分 放置 在 适当 的 大 小 类 中 。 要 释 
放 一 个 块 ， 我 们 执行 合并 ， 并 将 结果 放置 到 相应 的 空闲 链表 中 。 

分 离 适 配方 法 是 一 种 常见 的 选择 ，C 标准 库 中 提供 的 GNU malloc 包 就 是 采用 的 这 种 
方法 ， 因 为 这 种 方法 既 快 速 ， 对 内 存 的 使 用 也 很 有 效率 。 搜 索 时 间 减 少 了 ， 因 为 搜索 被 限 
制 在 堆 的 某 个 部 分 ， 而 不 是 整个 堆 。 内 存 利用 率 得 到 了 改善 ， 因 为 有 一 个 有 趣 的 事实 : 对 
分 离 空 闲 链表 的 简单 的 首次 适 配 搜索 ， 其 内 存 利 用 率 近 似 于 对 整个 堆 的 最 佳 适 配 搜索 的 内 
存 利用 率 。 

3. 伙伴 系统 

伙伴 系统 (buddy system) 是 分 离 适 配 的 一 种 特例 ， 其 中 每 个 大 小 类 都 是 2 的 蜗 。 基 本 
的 思路 是 假设 一 个 堆 的 大 小 为 2" 个 字 ， 我们 为 每 个 块 大 小 2 维护 一 个 分 离 空 闲 链表 ， 其 
中 0<km。 请 求 块 大 小 同上 舍 入 到 最 接近 的 2 的 需 。 最 开始 时 ， 只 有 一 个 大 小 为 2" 个 字 
的 空闲 块 。 

为 了 分 配 一 个 大 小 为 2 的 块 ， 我 们 找到 第 一 个 可 用 的 、 大 小 为 2 的 块 ， 其 中 kj 二 m。 
如 果 7 一 上 A， 那 么 我 们 就 完成 了 。 否 则 ， 我 们 递归 地 二 分 割 这 个 块 ， 直 到 7) 一 &。 当 我 们 进行 这 
样 的 分 割 时 ， 每 个 剩 下 的 半 块 (也 叫做 伙伴 ) 被 放置 在 相应 的 空闲 链表 中 。 要 释放 一 个 大 小 为 
2 的 块 ， 我 们 继续 合并 空闲 的 伙伴 。 当 遇 到 一 个 已 分 配 的 伙伴 时 ， 我们 就 停止 合并 。 

关于 伙伴 系统 的 一 个 关键 事实 是 ， 给 定 地 址 和 块 的 大 小 ， 很 容易 计算 出 它 的 伙伴 的 地 
址 。 例 如 ， 一 个 块 ， 大 小 为 32 字 节 ， 地 址 为 : 

XrTzr**TO00000 
它 的 伙伴 的 地 址 为 

ZL10000 
换 句 话说 ， 一 个 块 的 地 址 和 它 的 伙伴 的 地 址 只 有 一 位 不 相同 。 

伙伴 系统 分 配器 的 主要 优点 是 它 的 快速 搜索 和 快速 合并 。 主 要 缺点 是 要 求 块 大 小 为 2 
的 才 可 能 导致 显著 的 内 部 雄 片 。 因 此 ， 伙 伴 系统 分 配 需 不 适合 通用 目的 的 工作 负载 。 然 
而 ， 对 于 某 些 特定 应 用 的 工作 负载 ， 其 中 块 大 小 预先 知道 是 2 的 占 ， 伙伴 系统 分 配器 就 很 
有 吸引 力 了 。 


9. 10 垃圾 收集 


在 诸如 C malloc 包 这 样 的 显 式 分 配器 中 ， 应 用 通过 调用 malloc 和 free 来 分 配 和 释 
放 堆 块 。 应 用 要 负责 释放 所 有 不 再 需要 的 已 分 配 块 。 

未 能 释放 已 分 配 的 块 是 一 种 常见 的 编程 错误 。 例 如 ， 考 虑 下 面 的 C 函数 ， 作 为 处 理 的 
一 部 分 ， 它 分 配 一 块 临时 存储 : 
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void garbage() 
int *p = (int *)Malloc(15213); 


return; /* Array p is garbage at this point */ 
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} 


因为 程序 不 再 需要 p， 所 以 在 garbage 返回 前 应 该 释放 p。 不 幸 的 是 ， 程 序 员 忘 了 释 
放 这 个 块 。 它 在 程序 的 生命 周期 内 都 保持 为 已 分 配 状态 ， 毫 无 必要 地 占用 着 本 来 可 以 用 来 
满足 后 面 分 配 请 求 的 堆 空间 。 

垃圾 收集 器 (garbage collector) 是 一 种 动态 内 存 分 配器 ， 它 自动 释放 程序 不 再 需要 的 
已 分 配 块 。 这 些 块 被 称 为 垃圾 (garbage) (因此 术语 就 称 之 为 垃圾 收集 器 ) 。 自 动 回收 堆 存 
储 的 过 程 叫 做 垃圾 收集 (garbage collection) 。 在 一 个 支持 垃圾 收集 的 系统 中 ， 应 用 显 式 分 
配 堆 块 ， 但 是 从 不 显示 地 释放 它们 。 在 C 程序 的 上 下 文中 ， 应 用 调用 malloc， 但 是 从 不 
调用 free。 反 之 ， 垃 圾 收集 器 定期 识别 垃圾 块 ， 并 相应 地 调用 free， 将 这 些 块 放 回 到 空 
闲 链表 中 。 

垃圾 收集 可 以 追溯 到 John McCarthy 在 20 世纪 60 年 代 早 期 在 MIT 开发 的 Lisp 系统 。 
它 是 诸如 Java、ML、Perl 和 Mathematica 等 现代 语言 系统 的 一 个 重要 部 分 ， 而 且 它 仍然 
是 一 个 重要 而 活 姥 的 研究 领域 。 有 关 文 献 描 《 述 了 大 量 的 垃圾 收集 方法 ， 其 数量 令 人 吃惊 。 
我 们 的 讨论 局 限于 McCarthy 独创 的 Mark&.Sweep( 标 记 & 清除 ) 算 法 ， 这 个 算法 很 有 趣 ， 
因为 它 可 以 建立 在 已 存在 的 malloc 包 的 基础 之 上 ， 为 C 和 C++ 程序 提供 垃圾 收集 。 


9. 10. 1 垃圾 收集 器 的 基本 知识 


垃圾 收集 器 将 内 存 视 为 一 张 有 向 可 达 图 (reachability graph)， 其 形式 如 图 9-49 所 示 。 
该 图 的 节点 被 分 成 一 组 根 节 点 (root node) 和 一 组 堆 节 点 (heap node)。 每 个 堆 节 点 对 应 于 
堆 中 的 一 个 已 分 配 块 。 有 向 边 p>g 意味 着 块 p 中 的 某 个 位 置 指 向 块 g 中 的 某 个 位 置 。 根 
节点 对 应 于 这 样 一 种 不 在 堆 中 的 位 置 ， 它 们 中 包含 指向 堆 中 的 指针 。 这 些 位 置 可 以 是 寄存 
器 、 栈 里 的 变量 ， 或 者 是 虚拟 内 存 中 读 写 数据 区 域内 的 全 局 变量 。 
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图 9-49 ”垃圾 收集 器 将 内 存 视 为 一 张 有 问 图 


当 存 在 一 条 从 任意 根 节点 出 发 并 到 达 pp 的 有 疝 路 径 时 ,我们 说 节点 pp 是 可 达 的 
(reachable)。 在 任何 时 刻 ， 不 可 达 节 点 对 应 于 垃圾 ， 是 不 能 被 应 用 再 次 使 用 的 。 垃 圾 收集 
器 的 角色 是 维护 可 达 图 的 某 种 表示 ， 并 通过 释放 不 可 达 节 点 且 将 它们 返回 给 空闲 链表 ， 来 
定期 地 回收 它们 。 

像 ML 和 Java 这 样 的 语言 的 垃圾 收集 器 ， 对 应 用 如 何 创 建 和 使 用 指针 有 很 严格 的 控 
制 ， 能 够 维护 可 达 图 的 一 种 精确 的 表示 ， 因 此 也 就 能 够 回收 所 有 垃圾 。 然 而 ,诸如 C 和 
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C++ 这 样 的 语言 的 收集 右 通 和 常 不 能 维持 可 达 图 的 精确 表示 。 这 样 的 收集 器 也 叫做 保守 的 
垃圾 收集 器 (conservative garbage collector) 。 从 某 种 意义 上 来 说 它们 是 保守 的 ， 即 每 个 可 
达 块 都 被 正确 地 标记 为 可 达 了 ， 而 一 些 不 可 达 节 点 却 可 能 被 错误 地 标记 为 可 达 。 

收集 器 可 以 按 需 提供 它们 的 服务 ， 或 者 它们 可 以 作为 一 个 和 应 用 并 行 的 独立 线程 ， 不 
断 地 更 新 可 达 图 和 回收 垃圾 。 例 如 ， 考 虑 如 何 将 一 个 C 程序 的 保守 的 收集 器 加 入 到 已 存在 
的 malloc 包 中 ， 如 图 9-50 所 示 。 


动态 内 存 分 配器 


图 9-50 ”将 一 个 保守 的 垃圾 收集 器 加 入 到 C 的 malloc 包 中 


无 论 何 时 需要 堆 空 间 时 ， 应 用 都 会 用 通常 的 方式 调用 malloc。 如 果 malloc 找 不 到 一 
个 合适 的 空闲 块 ， 那 么 它 就 调用 垃圾 收集 磊 ， 和 布 望 能 够 回收 一 些 垃 圾 到 空闲 链表 。 收 集 需 
识别 出 垃圾 块 ， 并 通过 调用 free 函数 将 它们 返回 给 堆 。 关 键 的 思想 是 收集 器 代替 应 用 去 
调用 free。 当 对 收集 器 的 调用 返回 时 ，malloc 重 试 ， 试 图 发 现 一 个 合适 的 空闲 块 。 如 果 
还 是 失败 了 ， 那 么 它 就 会 回 操作 系统 要 求 额外 的 内 存 。 最 后 ，malloc 返回 一 个 指 回 请 求 
块 的 指针 (如 果 成 功 ) 或 者 返回 一 个 空 指 针 ( 如 果 不 成功 )。 





9. 10.2 Mark & Sweep 垃圾 收集 器 


Mark&Sweep 垃圾 收集 器 由 标记 (mark) 阶 段 和 清除 (sweep) 阶 段 组 成 ， 标 记 阶 段 标记 
出 根 节 点 的 所 有 可 达 的 和 已 分 配 的 后 继 ， 而 后 面 的 清除 阶段 释放 每 个 未 被 标记 的 已 分 配 
块 。 块 头 部 中 空闲 的 低位 中 的 一 位 通常 用 来 表示 这 个 块 是 否 被 标记 了 。 

我 们 对 Mark&.Sweep 的 描述 将 假设 使 用 下 列 函 数 ， 其 中 ptr 定义 为 typedef void *ptr: 

e@ ptr isPtr (ptr p)。 如 果 p 指 癌 一 个 已 分 配 块 中 的 某 个 字 ， 那 么 就 返回 一 个 指 问 

这 个 块 的 起 始 位 置 的 指针 bp。 否 则 返回 NULL。 

e int blockMarked (ptr b)。 如 果 块 b 是 已 标记 的 ， 那 么 就 返回 上 true。 

e int blockAllocated (ptr b)。 如 果 块 b 是 已 分 配 的 ， 那 么 就 返回 true。 

e@ void markBlock (ptr b)。 标 记 块 b。 

@ int length (b)。 返 回 块 b 的 以 字 为 单位 的 长 度 (不 包括 头 部 ) 。 

9 void unmarkBlock (ptr b) 。 将 块 b 的 状态 由 已 标记 的 改 为 未 标记 的 。 

e@ ptr nextBlock (Ptr b)。 返 回 堆 中 块 b 的 后 继 。 

标记 阶段 为 每 个 根 节 点 调用 一 次 图 9-51a 所 示 的 mark 图 数 。 如 果 p 不 指 问 一 个 已 分 
配 并 且 未 标记 的 堆 块 ，mark 肾 数 就 立即 返回 。 否 则 ， 它 就 标记 这 个 块 ， 并 对 块 中 的 每 个 
字 递 归 地 调用 它 自 己 。 每 次 对 mark 函数 的 调用 都 标记 菜 个 根 节点 的 所 有 未 标记 并 且 可 达 
的 后 继 节 点 。 在 标记 阶段 的 末尾 ， 任 何 未 标记 的 已 分 配 块 都 被 认定 为 是 不 可 达 的 ， 是 垃 
圾 ， 可 以 在 清除 阶段 回收 。 

清除 阶段 是 对 图 9-51b 所 示 的 sweep 因数 的 一 次 调用 。sweep 函数 在 堆 中 每 个 块 上 反 
复 循 环 ， 释 放 它 所 遇 到 的 所 有 未 标记 的 已 分 配 块 (也 就 是 垃圾 )。 

图 9-52 展示 了 一 个 小 堆 的 Mark&.Sweep 的 图 形 化 解释 。 块 边界 用 粗 线条 表示 。 每 个 方 
块 对 应 于 内 存 中 的 一 个 字 。 每 个 块 有 一 个 字 的 头 部 ， 要 么 是 已 标记 的 ， 要 么 是 未 标记 的 。 
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void mark(ptr p) { 
if ((b = isPtr(p)) == NULL) 
return,; 
if (blockMarked(b)) 
return; 
markBlock(b); 


void sweep(ptr b, ptr end) { 
while (b < end) { 
if (blockMarked(b)) 
UnmarkBlock(b) ; 
else if (blockAllocated(b)) 


free(b) ; 

len = length(b); b = nextBlock(b); 

for (i=0; i < len; i++) 
mark(b[i]); 


return; 


} 


return; 





a ) mark 函数 b ) SWeep 函数 
图 9-51 mark 和 sweep 函数 的 伪 代 码 


| “| 未 标记 的 块头 部 


已 标记 的 块头 部 





图 9-52 Mark&Sweep 示例 。 注 意 这 个 示例 中 的 箭头 表示 内 存 引用 ， 而 不 是 空闲 链表 指针 


初始 情况 下 ， 图 9-52 中 的 堆 由 六 个 已 分 配 块 组 成 ， 其 中 每 个 块 都 是 未 分 配 的 。 第 3 
块 包含 一 个 指向 第 1 块 的 指针 。 第 4 块 包含 指向 第 3 块 和 第 6 块 的 指针 。 根 指向 第 4 块 。 
在 标记 阶段 之 后 ， 第 1 块 、 第 3 块 、 第 4 块 和 第 6 块 被 做 了 标记 ， 因 为 它们 是 从 根 往 点 可 
达 的 。 第 2 块 和 第 5 块 是 未 标记 的 ， 因 为 它们 是 不 可 达 的 。 在 清除 阶段 之 后 ， 这 两 个 不 可 
达 块 被 回收 到 空闲 链表 。 


9. 10.3 C 程序 的 保守 Mark& Sweep 


Mark&.Sweep 对 C 程序 的 垃圾 收集 是 一 种 合适 的 方法 ， 因 为 它 可 以 就 地 工作 ， 而 不 
需要 移动 任何 块 。 然 而 ，C 语言 为 isPtr 函数 的 实现 造成 了 一 些 有 趣 的 挑战 。 

第 一 ，C 不 会 用 任何 类 型 信息 来 标记 内 存 位 置 。 因 此 ， 对 isPtr 没有 一 种 明显 的 方式 
来 判断 它 的 输入 参数 p 是 不 是 一 个 指针 。 第 二 ， 即 使 我 们 知道 p 是 一 个 指针 ， 对 isPtr 也 
没有 明显 的 方式 来 判断 p 是 否 指向 一 个 已 分 配 块 的 有 效 载 荷 中 的 某 个 位 置 。 

对 后 一 问题 的 解决 方法 是 将 已 分 配 块 集合 维护 成 一 棵 平衡 二 叉 树 ， 这 棵 树 保 持 着 这 样 一 
个 属性 : 左 子 树 中 的 所 有 块 都 放 在 较 小 的 地 址 处 ， 而 右 子 树 中 的 所 有 块 都 放 在 较 大 的 地 址 
处 。 如 图 9-53 所 示 ， 这 就 要 求 每 个 已 分 配 块 的 头 部 里 有 两 个 附加 字段 (left 和 right)。 每 
个 字段 指向 某 个 已 分 配 块 的 头 部 。isPtrz (ptr P) 函 数 用 树 来 执行 对 已 分 配 块 的 二 分 查找 。 在 
每 一 步 中 ， 它 依赖 于 块头 部 中 的 大 小 字段 来 判断 p 是 否 落 在 这 个 块 的 范围 之 内 。 
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已 分 配 块 头 部 
se | en [Ri | RR 
< > 


图 9-53 一 棵 已 分 配 块 的 平衡 树 中 的 左右 指针 


平衡 树 方 法 保证 会 标记 所 有 从 根 节 点 可 达 的 节点 ， 从 这 个 意义 上 来 说 它 是 正确 的 。 这 
是 一 个 必要 的 保证 ， 因 为 应 用 程序 的 用 户 当 然 不 会 喜欢 把 他 们 的 已 分 配 块 过 早 地 返回 给 空 
闲 链表 。 然 而 ， 这 种 方法 从 某 种 意义 上 而 言 又 是 保守 的 ， 因 为 它 可 能 不 正确 地 标记 实际 上 
不 可 达 的 块 ， 因 此 它 可 能 不 会 释放 某 些 垃圾 。 虽 然 这 并 不 影响 应 用 程序 的 正确 性 ， 但 是 这 
可 能 导致 不 必要 的 外 部 碎片 。 

C 程序 的 Mark & Sweep 收集 器 必须 是 保守 的 ， 其 根本 原因 是 C 语言 不 会 用 类 型 信息 
来 标记 内 存 位 置 。 因 此 ， 像 int 或 者 float 这 样 的 标量 可 以 伪装 成 指针 。 人 例如， 假设 某 
个 可 达 的 已 分 配 块 在 它 的 有 效 载荷 中 包含 一 个 int， 其 值 碰巧 对 应 于 某 个 其 他 已 分 配 块 b 
的 有 效 载荷 中 的 一 个 地 址 。 对 收集 器 而 言 ， 是 没有 办 法 推断 出 这 个 数据 实际 上 是 int 而 不 
是 指针 。 因 此 ， 分 配器 必须 保守 地 将 块 b 标记 为 可 达 ， 尽 管事 实 上 它 可 能 是 不 可 达 的 。 


9. 11 C 程序 中 第 见 的 与 内 存 有 关 的 销 误 


对 C 程序 员 来 说 ， 管 理 和 使 用 虚拟 内 存 可 能 是 个 困难 的 、 容 易 出 错 的 任务 。 与 内 存 有 
关 的 错误 属于 那些 最 令 人 惊 铠 的 错误 ， 因 为 它们 在 时 间 和 空间 上 ， 经 常 在 距 错 误 源 一 段 距 
离 之 后 才 表 现 出 来 。 将 错误 的 数据 写 到 错误 的 位 置 ， 你 的 程序 可 能 在 最 终 失 败 之 前 运行 了 
好 几 个 小 时 ， 且 使 程序 中 止 的 位 置 距离 错误 的 位 置 已 经 很 远 了 。 我 们 用 一 些 常见 的 与 内 存 
有 关 错 误 的 讨论 ， 来 结束 对 虚拟 内 存 的 讨论 。 


9.11.1 间接 引用 坏 指针 


正如 我 们 在 9. 7. 2 节 中 学 到 的 ， 在 进程 的 虚拟 地 址 空间 中 有 较 大 的 洞 ， 没 有 映射 到 任何 有 
意义 的 数据 。 如 果 我 们 试图 间接 引用 一 个 指向 这 些 洞 的 指针 ， 那 么 操作 系统 就 会 以 段 异 常 中 止 
程序 。 而 且 ， 虚 拟 内 存 的 某 些 区 域 是 只 读 的 。 试 图 写 这 些 区 域 将 会 以 保护 异常 中 止 这 个 程序 。 

间接 引用 坏 指 针 的 一 个 常见 示例 是 经 典 的 scanf 错误 。 假 设 我 们 想 要 使 用 scanf 从 
stdin 读 一 个 整数 到 一 个 变量 。 正 确 的 方法 是 传递 给 scanf 一 个 格式 串 和 变量 的 地 址 : 

scanf ("%d", &val) 
然而 ， 对 于 C 程序 员 初 学 者 而 言 (对 有 经 验 者 也 是 如 此 !)， 很 容易 传递 val 的 内 容 ， 而 不 

scanf ("'%d", val) 
在 这 种 情况 下 ，scanf 将 把 val 的 内 容 解释 为 一 个 地 址 ， 并 试图 将 一 个 字 写 到 这 个 位 置 。 
在 最 好 的 情况 下 ， 程 序 立 即 以 异常 终止 。 在 最 糟糕 的 情况 下 ，val 的 内 容 对 应 于 虚拟 内 存 


的 某 个 合法 的 读 / 写 区 域 ， 于 是 我 们 就 覆盖 了 这 块 内 存 ， 这 通常 会 在 相当 长 的 一 段 时 间 以 
后 造成 灾难 性 的 、 令 人 困惑 的 后 果 。 


9. 11.2 读 未 初始 化 的 内 存 


虽然 bss 内 存 位 置 ( 诸 如 未 初始 化 的 全 局 C 变量 ) 总 是 被 加 载 器 初始 化 为 零 ， 但 是 对 于 
堆 内 存 却 并 不 是 这 样 的 。 一 个 常见 的 错误 就 是 假设 堆 内 存 被 初始 化 为 零 
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/* Return y = AX */ 


1 

2 int *matvec(int **A, int *x, int n) 
3 

4 14mb 3 

5 

6 int *y = (int *)Malloc(n * sizeof (int)); 
7 

8 for (i = 0; i < n; i++) 

9 for (i = O05 1 < ms; 了 Ht 
10 y[i] += A[i][j] * x[j]; 
11 return y; 
12 } 


在 这 个 示例 中 ， 程 序 员 不 正确 地 假设 向 量 y 被 初始 化 为 零 。 正 确 的 实现 方式 是 显 式 地 将 
Yy[i] 设 置 为 零 ， 或 者 使 用 calloc。 


9. 11.3 人 允许 栈 缓冲 区 溢出 


正如 我 们 在 3. 10. 3 节 中 看 到 的 ， 如 果 一 个 程序 不 检查 输入 串 的 大 小 就 写 人 栈 中 的 目 
标 缓 冲 区 ， 那 么 这 个 程序 就 会 有 缓冲 区 溢出 错误 (buffer overflow bug)。 人 例如， 下 面 的 上 
数 就 有 缓冲 区 溢出 错误 ， 因 为 gets 函数 复制 一 个 任意 长 度 的 串 到 缓冲 区 。 为 了 纠正 这 个 
错误 ， 我 们 必须 使 用 fgets 函数 ， 这 个 函数 限制 了 输入 串 的 大 小 : 
void bufoverflow() 


{ 
char buf [64] ; 


gets(buf); /* Here is the stack buffer overflow bug */ 
return; 


| 
2 
3 
4 
5 
6 
7 J} 
9.11.4 假设 指针 和 它们 指向 的 对 象 是 相同 大 小 的 

一 种 常见 的 错误 是 假设 指向 对 象 的 指针 和 它们 所 指向 的 对 象 是 相同 大 小 的 : 


/* Create an nxm array */ 


1 

2 int **makeArrayi(int n, int m) 

3 { 

4 1mt hs 

5 int **A = (int **)Malloc(n * sizeof (int)); 
o 

7 for (i = 0; i < n; i++) 

8 A[i] = (int *)Malloc(m * sizeof (int)); 
9 return A; 

10 } 


这 里 的 目的 是 创建 一 个 由 7 个 指针 组 成 的 数组 ， 每 个 指针 都 指 癌 一 个 包含 m 个 int 的 数 
组 。 然 而 ， 因 为 程序 员 在 第 5 行将 sizeof (int *) 写 成 了 sizeof (int)， 代 码 实际 上 创建 
的 是 一 个 int 的 数组 。 

这 段 代 码 只 有 在 int 和 指向 int 的 指针 大 小 相同 的 机 器 上 运行 良好 。 但 是 ， 如 果 我 们 
在 像 Core i7 这 样 的 机 器 上 运行 这 段 代 码 ， 其 中 指针 大 于 int， 和 那么 第 7 行 和 第 8 行 的 循环 将 
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写 到 超出 A 数组 结尾 的 地 方 。 因 为 这 些 字 中 的 一 个 很 可 能 是 已 分 配 块 的 边界 标记 脚 部 ， 所 以 
我 们 可 能 不 会 发 现 这 个 错误 ， 直 到 在 这 个 程序 的 后 面 很 久 释 放 这 个 块 时 ， 此 时 ， 分 配器 中 的 
合并 代码 会 戏剧 性 地 失败 ， 而 没有 任何 明显 的 原因 。 这 是 “在 远 处 起 作用 (action at dis- 
tance)” 的 一 个 阴险 的 示例 ， 这 类 “在 远 处 起 作用 ”是 与 内 存 有 关 的 编程 错误 的 典型 情况 。 


9.11.5 造成 错位 错误 
错位 (off-by-one) 错 误 是 男 一 种 很 常见 的 造成 覆盖 错误 的 来 源 : 


/* Create an nxm array */ 


] 

2 int **makeArray2(int n, int m) 

3 

4 Valk Ls 

5 int **A = (int **)Malloc(n * sizeof(int *)); 
6 

7 for (i = 0; i <= n; i++) 

8 A[i] = (int *)Malloc(m * Sizeof(int) ) ; 

9 return A; 

10 3 


这 是 前 面 一 节 中 程序 的 男 一 个 版 本 。 这 里 我 们 在 第 5 行 创建 了 一 个 n 个 元 素 的 指针 数 
组 ， 但 是 随后 在 第 7 行 和 第 8 行 试图 初始 化 这 个 数组 的 n 十 1 个 元 素 ， 在 这 个 过 程 中 覆盖 
了 A 数组 后 面 的 某 个 内 存 位 置 。 


9. 11.6 引用 指针 ， 而 不 是 它 所 指向 的 对 象 


如 果 不 太 注意 C 操作 符 的 优先 级 和 结合 性 ， 我 们 就 会 错误 地 操作 指针 ， 而 不 是 指针 所 
指向 的 对 象 。 比 如 ， 考 虑 下 面 的 函数 ， 其 目的 是 删除 一 个 有 *size 项 的 二 又 堆 里 的 第 一 
项 ， 然 后 对 剩 下 的 *size-l 项 重新 建 堆 : 


int *binheapDelete(int **binheap, int *size) 


1 
- 三 

3 int *packet = binheap[0]; 

4 

5 binheap[0] = binheap[*size - 1]; 

6 *size-—; /* This Should be (*size)-— */ 
7 heapify(binheap, *size, 0); 

8 return(packet); 

9  】 


在 第 6 行 ， 目 的 是 减少 size 指针 指 问 的 整数 的 值 。 然 而 ， 因 为 一 元 运算 符 一 一 和 x* 
的 优先 级 相同 ， 从 右 向 左 结合 ， 所 以 第 6 行 中 的 代码 实际 减少 的 是 指针 上 自己 的 值 ， 而 不 是 
它 所 指向 的 整数 的 值 。 如 果 幸 运 地 话 ， 程 序 会 立即 失败 ; 但 是 更 有 可 能 发 生 的 是 ， 当 程序 
在 执行 过 程 后 很 久 才 产生 出 一 个 不 正确 的 绪 果 时 ， 我 们 只 有 一 头 的 雾 水 。 这 里 的 原则 是 当 
你 对 优先 级 和 结合 性 有 疑问 的 时 候 ， 就 使 用 括号 。 比 如 ， 在 第 6 行 ， 我 们 可 以 使 用 表达 式 
(*size)--， 清 晰 地 表明 我 们 的 意图 。 


9. 11.7 误解 指针 运算 


另 一 种 常见 的 错误 是 忘记 了 指针 的 算术 操作 是 以 它们 指向 的 对 象 的 大 小 为 单位 来 进行 
的 ， 而 这 种 大 小 单位 并 不 一 定 是 字 节 。 例 如 ， 下 面 函 数 的 目的 是 扫描 一 个 int 的 数组 ， 并 
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返回 一 个 指针 ， 指 向 val 的 首次 出 现 : 


1 int *search(int *p, int val) 

归 

3 while (*p && *p != val) 

4 P += sizeof(int); /* Should be p++ */ 
5 return p; 

6 


然而 ， 因 为 每 次 循环 时 ， 第 4 行 都 把 指针 加 了 4( 一 个 整数 的 字 节 数 )， 函 数 就 不 正确 地 扫 
描 数 组 中 每 4 个 整数 。 


9. 11.8 引用 不 存在 的 变量 
没有 太 多 经 验 的 C 程序 员 不 理解 栈 的 规则 ， 有 时 会 引用 不 再 合法 的 本 地 变量 ， 如 下 列 
所 示 : 


int *stackref () 


{ 


int val; 


] 
3 
4 
5 return &val,; 
6 


这 个 函数 返回 一 个 指针 (比如 说 是 p)， 指 向 栈 里 的 一 个 局 部 变量 ， 然 后 弹出 它 的 栈 
帧 。 尽 管 p 仍然 指向 一 个 合法 的 内 存 地 址 ， 但 是 它 已 经 不 再 指向 一 个 合法 的 变量 了 。 当 以 
后 在 程序 中 调用 其 他 函数 时 ， 内 存 将 重用 它们 的 栈 帧 。 再 后 来 ， 如 果 程 序 分 配 某 个 值 给 
*p， 那 么 它 可 能 实际 上 正在 修改 为 一 个 函数 的 栈 帧 中 的 一 个 条 目 ， 从 而 潜在 地 带 来 灾难 性 
的 、 令 人 困惑 的 后 有 果 。 


9. 11.9 引用 空闲 堆 块 中 的 数据 


一 个 相似 的 错误 是 引用 已 经 被 释放 了 的 堆 块 中 的 数据 。 例 如 ， 考 虑 下 面 的 示例 ， 这 个 示例 
在 第 6 行 分 配 了 一 个 整数 数组 x， 在 第 10 行 中 先 释 放 了 块 x， 然 后 在 第 14 行 中 又 引用 了 它 : 


int *heapref (int n, int m) 


1 
wl 

3 int i; 

4 int *xXx, *y; 

5 

6 x = (int *)Malloc(n * sizeof (int)).; 

7 

8 : / Other calls to malloc and free go here 

9 

10 free(x); 

11 

12 y = (int *)Malloc(m * sizeof (int)); 

13 for (i = 0; i < m; i++) 

14 y[ij = x[i]++; /* Oops! x[i] is a word in a free block */ 
15 

16 return y; 
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取决 于 在 第 6 行 和 第 10 行 发 生 的 malloc 和 free 的 调用 模式 ， 当 程序 在 第 14 行 引用 
x[i] 时 ， 数 组 x 可 能 是 某 个 其 他 已 分 配 堆 块 的 一 部 分 了 ， 因 此 其 内 容 被 重 写 了 。 和 其 他 许 
多 与 内 存 有 关 的 错误 一 样 ， 这 个 错误 只 会 在 程序 执行 的 后 面 ， 当 我 们 注意 到 y 中 的 值 被 破 
坏 了 时 才 会 显现 出 来 。 


9. 11. 10 引起 内 存 汇 漏 


内 存 泄漏 是 缓慢 、 隐 性 的 杀手 ， 当 程序 员 不 小 心 忘记 释放 已 分 配 块 ， 而 在 堆 里 创建 了 
垃圾 时 ， 会 发生 这 种 问题 。 例 如 ， 下 面 的 函数 分 配 了 一 个 堆 块 x， 然 后 不 释放 它 就 返回 : 
void leak(int n) 

二 


int *x = (int *)Malloc(n * sizeof (int)).; 


| 
2 
- return; /* x is garbage at this point */ 
6 


} 


如 果 经 常 调用 leak， 那 么 渐渐 地 ， 堆 里 就 会 充满 了 垃圾 ， 最 糟糕 的 情况 下 ， 会 占用 
整个 虚拟 地 址 空间 。 对 于 像 守 护 进程 和 服务 顺 这 样 的 程序 来 说 ， 内 存 泄 漏 是 特别 严重 的 ， 
根据 定义 这 些 程序 是 不 会 终止 的 。 


9. 12 小 结 


虚拟 内 存 是 对 主 存 的 一 个 抽象 。 支 持 虚拟 内 存 的 处 理 器 通过 使 用 一 种 叫做 虚拟 寻 址 的 间接 形式 来 引 
用 主 存 。 处 理 器 产生 一 个 虚拟 地 址 ， 在 被 发 送 到 主 存 之 前 ， 这 个 地 址 被 翻译 成 一 个 物理 地 址 。 从 虚拟 地 
址 空间 到 物理 地 址 空间 的 地 址 翻译 要 求 硬件 和 软件 紧密 合作 。 专 门 的 硬件 通过 使 用 页 表 来 翻译 虚拟 地 址 ， 
而 页 表 的 内 容 是 由 操作 系统 提供 的 。 

虚拟 内 存 提供 三 个 重要 的 功能 。 第 一 ， 它 在 主 存 中 自动 缓存 最 近 使 用 的 存放 磁盘 上 的 虚拟 地 址 空间 
的 内 容 。 虚 拟 内 存 缓存 中 的 块 叫做 页 。 对 磁盘 上 页 的 引用 会 触发 缺 页 ， 缺 页 将 控制 转移 到 操作 系统 中 的 
一 个 缺 页 处 理 程 序 。 缺 页 处 理 程 序 将 页 面 从 磁盘 复制 到 主 存 缓存 ， 如 果 必 要 ， 将 写 回 被 驱逐 的 页 。 第 二 ， 
虚拟 内 存 简化 了 内 存 管 理 ， 进 而 又 简化 了 链接 、 在 进程 间 共 享 数 据 、 进 程 的 内 存 分 配 以 及 程序 加 载 。 最 
后 ， 虚 拟 内 存 通过 在 每 条 页 表 条 目 中 加 入 保护 位 ， 从 而 了 简化 了 内 存 保护 。 

地 址 翻译 的 过 程 必须 和 系统 中 所 有 的 硬件 缓存 的 操作 集成 在 一 起 。 大 多 数 页 表 条 目 位 于 Ll 高 速 组 
存 中 ， 但 是 一 个 称 为 TLB 的 页 表 条 目的 片上 高 速 缓存 ， 通 常会 消除 访问 在 LI 上 的 页 表 条 目的 开销 。 

现代 系统 通过 将 虚拟 内 存 片 和 磁盘 上 的 文件 片 关联 起 来 ， 来 初始 化 虚拟 内 存 片 ， 这 个 过 程 称 为 内 存 
映射 。 内 存 上 映射 为 共享 数据 、 创 建新 的 进程 以 及 加 载 程序 提供 了 一 种 高 效 的 机 制 。 应 用 可 以 使 用 mmap 郴 
数 来 手工 地 创建 和 删除 虚拟 地 址 空间 的 区 域 。 然 而 ， 大 多 数 程 序 依 赖 于 动态 内 存 分 配器 ， 例 如 malloc， 
它 管 理 虚 拟 地 址 空间 区 域内 一 个 称 为 堆 的 区 域 。 动 态 内 存 分 配器 是 一 个 感觉 像 系 统 级 程序 的 应 用 级 程序 ， 
它 直 接 操 作 内 存 ， 而 无 需 类 型 系统 的 很 多 帮助 。 分 配器 有 两 种 类 型 。 显 式 分 配 需要 求 应 用 显 式 地 释放 它 
们 的 内 存 块 。 隐 式 分 配器 (垃圾 收集 器 ) 自 动 释放 任何 未 使 用 的 和 不 可 达 的 块 。 

对 于 C 程序 员 来 说 ， 管 理 和 使 用 虚拟 内 存 是 一 件 困难 和 容易 出 错 的 任务 。 和 常见 的 错误 示例 包括 : 间 
接 引 用 坏 指 针 ， 读 取 未 初始 化 的 内 存 ， 人 允许 栈 缓冲 区 溢出 ， 假 设 指针 和 它们 指 加 的 对 象 大 小 相同 ， 引 用 
指针 而 不 是 它 所 指向 的 对 象 ， 误 解 指针 运算 ， 引 用 不 存在 的 变量 ， 以 及 引起 内 存 泄漏 。 


参考 文献 说 明 


Kilburn 和 他 的 同事 们 发 表 了 第 一 篇 关于 虚拟 内 存 的 描述 L63]。 体 系 结构 教科 书包 括 关 于 硬件 在 虚拟 
内 存 中 的 角色 的 更 多 细节 [46]。 操 作 系 统 教科 书包 含 关于 操作 系统 角色 的 更 多 信息 L102，106，113j]。 
Bovet 和 Cesati [11 |] 给 出 了 Linux 虚拟 内 存 系统 的 详细 描述 。Intel 公司 提供 了 IA 处 理 器 上 32 位 和 64 位 
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地 址 翻译 的 详细 文档 [52j]。 

Knuth 在 1968 年 编写 了 有 关内 存 分 配 的 经 典 之 作 L64]。 从 那 以 后 ， 在 这 个 领域 就 有 了 大 量 的 文献 。 
Wilson、Johnstone、Neely 和 Boles 编写 了 一 篇 关于 显 式 分 配 需 的 漂亮 综述 和 人 性 能 评价 的 文章 L118j。 本 
书 中 关于 各 种 分 配器 策略 的 吞吐 率 和 利用 率 的 一 般 评 价 就 引 自 于 他 们 的 调查 。Jones 和 Lins 提供 了 关于 
垃圾 收集 的 全 面 综述 [56]。Kernighan 和 Ritchie [61] 展 示 了 一 个 简单 分 配器 的 完整 代码 ， 这 个 简单 的 分 
配器 是 基于 显 式 空闲 链表 的 ， 每 个 空闲 块 中 都 有 一 个 块 大 小 和 后 继 指 针 。 这 段 代 码 使 用 联合 (union) 来 消 
除 大 量 的 复杂 指针 运算 ， 这 是 很 有 趣 的 , 但 是 代价 是 释放 操作 是 线性 时 间 ( 而 不 是 常数 时 间 )。Doug Lea 
开发 了 广泛 使 用 的 开源 malloc 包 ， 称 为 dlmalloc [67]。 


家 庭 作 业 


*9. 11 在 下 面 的 一 系列 问题 中 ， 你 要 展示 9. 6.4 节 中 的 示例 内 存 系 统 如 何 将 虚拟 地 址 翻译 成 物理 地 址 ， 
以 及 如 何 访 问 缓 存 。 对 于 给 定 的 虚拟 地 址 ， 请 指出 访问 的 TLB 条 目 、 物 理 地 址 ， 以 及 返回 的 缓存 
字 节 值 。 请 指明 是 否 TLB 不 命中 ， 是 否 发 生 了 缺 页 ， 是否 发 生 了 缓存 不 命中 。 如 果 有 缓存 不 命 
中 ， 对 于 “返回 的 缓存 字 节 ”用 “-” 来 表示 。 如 果 有 缺 页 ， 对 于 “PPN” 用 “-” 来 表示 ， 而 C 部 分 和 DD 
部 分 就 空 着 。 
虚拟 地 址 : 0x027c 
A. 虚拟 地 址 格式 


TLB 命 中 ? (是 / 否 ) 
缺 页 ? (是 / 否 ) 





C. 物理 地 址 格式 









缓存 命中 ? (是 / 否 ) 
返回 的 缓存 字 节 


*9. 12 对 于 下 面 的 地 址 ， 重 复习 题 9. 11; 
虚拟 地 址 : 0x03a9 
A. 虚拟 地 址 格式 
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C. 物理 地 址 格式 





D. 物理 地 址 引用 





“9. 13 对 于 下 面 的 地 址 ， 重 复习 题 9. 11: 
虚拟 地 址 : 0x0040 
A, 虚拟 地 址 格式 


TLB 命 中 ? (是 / 否 ) 
缺 页 ? (是 / 否 ) 


C. 物理 地 址 格式 





D. 物理 地 址 引用 
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假设 有 一 个 输入 文件 hello.txt， 由 字符 串 “Hello, world!\n” 组 成 ,编写 一 个 C 程序 ， 使 用 
mmap 将 hello.txt 的 内 容 改 变 为 “Jello,world!\n”。 

确定 下 面 的 malloc 请 求 序 列 得 到 的 块 大 小 和 头 部 值 。 假 设 : 1) 分 配器 保持 双 字 对 齐 ， 使 用 隐 式 空 
闲 链表 ， 以 及 图 9-35 中 的 块 格式 。2) 块 大 小 向 上 舍 人 为 最 接近 的 8 字 节 的 倍数 。 


| | 
al 
am | 
am | 


确定 下 面 对 齐 要 求 和 块 格式 的 每 个 组 合 的 最 小 块 大 小 。 假设: 显 式 空闲 链表 、 每 个 空闲 块 中 有 四 字 
节 的 pred 和 succ 指针 、 不 允许 有 效 载荷 的 大 小 为 零 ， 并 且 头 部 和 脚 部 存放 在 一 个 四 字 节 的 字 中 。 


™ 
一 
op, 













开发 9. 9. 12 节 中 的 分 配器 的 一 个 版 本 ， 执 行 下 一 次 适 配 搜索 ， 而 不 是 首次 适 配 搜索 。 
9. 9. 12 节 中 的 分 配器 要 求 每 个 块 既 有 头 部 也 有 脚 部 ， 以 实现 常数 时 间 的 合并 。 修 改 分 配器 ， 使 得 
空闲 块 需要 头 部 和 脚 部 ， 而 已 分 配 块 只 需要 头 部 。 
下 面 给 出 了 三 组 关于 内 存 管理 和 垃圾 收集 的 陈述 。 在 每 一 组 中 ， 只 有 一 句 陈述 是 正确 的 。 你 的 任 
务 就 是 判断 哪 一 句 是 正确 的 。 
1) a) 在 一 个 伙伴 系统 中 ， 最 高 可 达 50%% 的 空间 可 以 因为 内 部 碎片 而 被 浪费 了 
b) 首次 适 配 内 存 分 配 算法 比 最 佳 适 配 算法 要 慢 一 些 (平均 而 言 )。 
c) 只 有 当空 闲 链表 按照 内 存 地 址 递增 排序 时 ， 使 用 边界 标记 来 回收 才 会 快速 。 
d) 伙伴 系统 只 会 有 内 部 碎片 ， 而 不 会 有 外 部 碎片 。 
a) 在 按照 块 大 小 递减 顺序 排序 的 空闲 链表 上 ， 使 用 首次 适 配 算法 会 导致 分 配 性 能 很 低 ， 但 是 可 
以 避免 外 部 碎片 。 
b) 对 于 最 佳 适 配方 法 ， 空 闲 块 链 表 应 该 按照 内 存 地 址 的 递增 顺序 排序 。 
c) 最 佳 适 配 方法 选择 与 请 求 段 匹 配 的 最 大 的 空闲 块 。 
d) 在 按照 块 大 小 递增 的 顺序 排序 的 空闲 链表 上 ， 使 用 首次 适 配 算法 与 使 用 最 佳 适 配 算法 等 价 。 
3) Mark&.Sweep 垃圾 收集 器 在 下 列 哪 种 情况 下 叫做 保守 的 : 
a) 它们 只 有 在 内 存 请 求 不 能 被 满足 时 才 合 并 被 释放 的 内 存 。 
b) 它们 把 一 切 看 起 来 像 指针 的 东西 都 当做 指针 。 
c) 它们 只 在 内 存 用 尽 时 ， 才 执行 垃圾 收集 。 
d) 它们 不 释放 形成 循环 链表 的 内 存 块 。 


2 


ww 
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**+ 9. 20 编写 你 自己 的 malloc 和 free 版 本 ， 将 它 的 运行 时 间 和 空间 利用 率 与 标准 C 库 提 供 的 malloc 版 


本 进行 比较 。 


练习 题 答 有 


9. 1 


9 2 


9. 3 


这 道 题 让 你 对 不 同 地 址 空间 的 大 小 有 了 些 了 解 。 曾 几何 时 ， 一 个 32 位 地 址 空间 看 上 去 似乎 是 无 法 
想象 的 大 。 但 是 ， 现 在 有 些 数 据 库 和 科学 应 用 需要 更 大 的 地 址 空间 ， 而 且 你 会 发 现 这 种 趋势 会 继 
续 。 在 有 生 之 年 ， 你 可 能 会 抱怨 个 人 电脑 上 那 狭 促 的 64 位 地 址 空间 ! 


虚拟 地 址 位 数 (n) 人 (CN) 最 大 可 能 的 虚拟 地 址 
=256 


2 一 1 = 255 


















16 ce 64K. 2'—1=64K—1 
22 = 4G 2*2—1=4G-1 
9956T 24 一 1=25S6T 一 1 





24= 16 384P 2%—]1=16 384P—1 


因为 每 个 虚拟 页 面 是 P==2? 字 节 ， 所 以 在 系统 中 总 共有 2"/2* = 二 2"”?* 个 可 能 的 页 面 ， 其 中 每 个 都 需 
要 一 个 页 表 条 目 (PTE)。 





为 了 完全 掌握 地 址 翻译 ， 你 需要 很 好 地 理解 这 类 问题 。 下 面 是 如 何 解 决 第 一 个 子 问题 : 我 们 有 n= 
32 个 虚拟 地 址 位 和 mx 二 24 个 物理 地 址 位 。 页 面 大 小 是 P 二 1KB， 这 意味 着 对 于 VPO 和 PPO， 我 们 
都 需要 log; (1K)= 二 10 位 。( 回 想 一 下 ，VPO 和 PPO 是 相同 的 。) 剩 下 的 地 址 位 分 别 是 VPN 和 PPN。 





做 一 些 这 样 的 手工 模拟 ， 能 很 好 地 巩固 你 对 地 址 翻译 的 理解 。 你 会 发 现 写 出 地 址 中 的 所 有 的 位 ， 然 
后 在 不 同 的 位 字段 上 画 出 方 框 ， 例 如 VPN、TLBI 等 ， 这 会 很 有 帮助 。 在 这 个 特殊 的 练习 中 ， 没 有 
任何 类 型 的 不 命中 : TLB 有 一 份 PTE 的 副本 ， 而 缓存 有 一 份 所 请 求 数据 字 的 副本 。 对 于 命中 和 不 
命中 的 一 些 不 同 的 组 合 ， 请 参见 习题 9. 11、9. 12 和 9. 13。 

A 00 0011 1101 W111 


TLB 命 中 ? 悍 / 否 ) 
缺 页 ? (是 / 否 ) 
PPN 





C. 0011 0101 0111 
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中 ,党 


9..6 


CO 
CI 


CT 
高 速 缓存 命中 ? (是 / 否 》 
高 速 缓存 字 节 返回 


解决 这 个 题目 将 帮助 你 很 好 地 理解 内 存 映 射 。 请 自己 独立 完成 这 道 题 。 我 们 没有 讨论 open、fstat 
或 者 write 函数 ， 所 以 你 需要 阅读 它们 的 帮助 页 来 看 看 它们 是 如 何 工作 的 。 





code/vm/mmapcopy.c 
] #include "csapp.h" 
2 
3 /* 
4 * mmapcopy — uses mmap to copy file fd to stdout 
5 */ 
6 void mmapcopy(int fd, int size) 
7 1{ 
8 char *bufp; /* ptr to memory-mapped VM area */ 
9 
10 bufp = Mmap(NULL, size, PROT_READ, MAP_PRIVATE, fd, 0); 
11 Write(1, bufp, size); 
12 return; 
13 才 


15  /* mmapcopy driver */ 
16 int main(int argc, char **argv) 


17 { 

18 struct stat stat; 

19 int fd; 

20 

21 /* Check for required command-line argument */ 
22 if (argc != 2) 并 

23 printf("usage: %s <filename>\n", argv[0]); 
24 exit(0); 

25 

26 

27 /* Copy the input argument to stdout */ 

28 fd = Open(argv[1], 0O_RDONLY, 0); 

29 fstat(fd, &stat); 

30 mmapcopy (fd, stat.st_size); 

31 exit (0); 

32 “小 


code/ vm/mmapcopy.c 


这 道 题 触及 了 一 些 核心 的 概念 ， 例 如 对 齐 要 求 、 最 小 块 大 小 以 及 头 部 编码 。 确 定 块 大 小 的 一 般 方法 
是 ， 将 所 请 求 的 有 效 载荷 和 头 部 大 小 的 和 伟人 到 对 齐 要 求 (在 此 例 中 是 8 字 节 ) 最 近 的 整数 倍 。 比 
如 ，malloc (1) 请 求 的 块 大 小 是 4 十 1 二 5， 然 后 舍 人 到 8。 而 malloc (13) 请 求 的 块 大 小 是 13 十 4= 
17， 舍 人 到 24。 


malloct{1) 


malloc!(5s) 
malloc(12) 
malloc(13) 





最 小 块 大 小 对 内 部 碎片 有 显著 的 影响 。 因 此 ， 理 解 和 不 同 分 配器 设计 和 对 齐 要 求 相 关联 的 最 小 块 大 
小 是 很 好 的 。 很 有 技巧 的 一 部 分 是 ， 要 意识 到 相同 的 块 可 以 在 不 同时 刻 被 分 配 或 者 被 释放 。 因 此 ， 
最 小 块 大 小 就 是 最 小 已 分 配 块 大 小 和 最 小 空闲 块 大 小 两 者 的 最 大 值 。 例 如 ， 在 最 后 一 个 子 问题 中 ， 


9. 8 


3.9 
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最 小 的 已 分 配 块 大 小 是 一 个 4 字 节 头 部 和 一 个 1 字 节 有 效 载荷 ， 舍 人 到 8 字 节 。 而 最 小 空闲 块 的 大 
小 是 一 个 4 字 节 的 头 部 和 一 个 4 字 节 的 脚 部 ， 加 起 来 是 8 字 节 ， 已 经 是 8 的 倍数 ， 就 不 需要 再 舍 人 
了 。 所 以 ， 这 个 分 配器 的 最 小 块 大 小 就 是 8 字 节 。 


对 齐 要 最 小 块 大 小 ( 字 节 ) 



















头 部 和 脚 部 头 部 和 脚 部 
头 部 , 但 是 没有 脚 部 头 部 和 脚 部 
头 部 和 脚 部 头 部 和 脚 部 





头 部 , 但 是 没有 脚 部 头 部 和 脚 部 


这 里 没有 特别 的 技巧 。 但 是 解答 此 题 要 求 你 理解 简单 的 隐 式 链表 分 配器 的 剩余 部 分 是 如 何 工作 的 ， 
是 如 何 操作 和 遍历 块 的 。 


code/vm/malloc/mm.c 
1 static void *find_fit(size_t asize) 
六 
3 /* First-fit search */ 
4 void *bp; 
5 
6 for (bp = heap_listp; GET_SIZE(HDRP(bp)) > 0; bp = NEXT_BLKP(bp)) 1 
7 if (!IGET_ALLOC(HDRP (bp)) && (asize <= GET_SIZE(HDRP(bp)))) { 
8 return bp; 
9 } 
10 } 
11 return NULL; /* No fit */ 
12 #endif 
13 } 


code/vm/malloc/mm.c 


这 又 是 一 个 帮助 你 熟悉 分 配器 的 热身 练习 。 注 意 对 于 这 个 分 配器 ， 最 小 块 大 小 是 16 字 节 。 如 果 分 
割 后 剩 下 的 块 大 于 或 者 等 于 最 小 块 大 小 ， 那 么 我 们 就 分 割 这 个 块 ( 第 6 一 10 行 )。 这 里 唯一 有 技巧 的 
部 分 是 要 意识 到 在 移动 到 下 一 块 之 前 (第 8 行 )， 你 必须 放置 新 的 已 分 配 块 (第 6 行 和 第 7 行 )。 


code/vm/malloc/mm.c 
1 static void Place(void *bp, size_t asize) 
2 六 
3 size_t csize = GET_SIZE(HDRP (bp)); 
4 
5 if ((csize - asize) >= (2*DSIZE)) { 
6 PUT (HDRP (bp), PACK(asize, 1)); 
7 PUT(FTRP (bp), PACK (asize, 1)); 
8 bp = NEXT_BLKP(bp) ; 
9 PUT(HDRP (bp), PACK (csize-asize, 0)); 
10 PUT(FTRP (bp), PACK(csize-asize, 0)); 
11 } 
12 else 1{ 
13 PUT(HDRP (bp), PACK(csize, 1)); 
14 PUT(FTRP (bp), PACK(csize, 1)); 
15 } 
16 } 
code/vm/malloc/mm.c 


9. 10 这 里 有 一 个 会 引起 外 部 碎片 的 模式 : 应 用 对 第 一 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 然 后 对 第 二 


个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 接 下 来 是 对 第 三 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 以 此 类 
推 。 对 于 每 个 大 小 类 ， 分 配器 都 创建 了 许多 不 会 被 回收 的 存储 器 ， 因 为 分 配器 不 会 合并 ， 也 因为 
应 用 不 会 再 向 这 个 大 小 类 再 次 请 求 块 了 。 


Bl 


第 三 部 分 


程序 间 的 交互 和 通信 


我 们 学 习 计 算 机 系统 到 现在 ， 一 直 假 设 程序 是 独立 运行 的 ， 
只 包含 最 小 限度 的 输入 和 输出 。 然 而 ， 在 现实 世界 里 ， 应 用 程序 
利用 操作 系统 提供 的 服务 来 与 IO 设备 及 其 他 程序 通信 。 

本 书 的 这 一 部 分 将 使 你 了 解 Unix 操作 系统 提供 的 基本 I/O 服 
务 ， 以 及 如 何 用 这 些 服务 来 构造 应 用 程序 ， 鲍 如 Web 客户 端 和 服 
务 器 ， 它 们 是 通过 Internet 彼此 通信 的 。 你 将 学 习 编 写 诸 如 Web 
服务 器 这 样 的 可 以 同时 为 多 个 客户 端 提供 服务 的 并 发 程序 。 编 写 
并 发 应 用 程序 还 能 使 程序 在 现代 多 核 处 理 器 上 执行 得 更 快 。 当 学 
完了 这 个 部 分 ， 你 将 逐渐 变 成 一 个 很 牛 的 程序 员 ， 对 计算 机 系统 
以 及 它们 对 程序 的 影响 有 很 成 熟 的 理解 。 
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系统 级 1/O 


输入 /输出 (IO) 是 在 主 存 和 外 部 设备 (例如 磁盘 驱动 器 、 终 端 和 网 络 ) 之 间 复 制 数据 的 过 
程 。 输 入 操作 是 从 IO 设备 复制 数据 到 主 存 ， 而 输出 操作 是 从 主 存 复制 数据 到 IO 设备 。 

所 有 语言 的 运行 时 系统 都 提供 执行 /0O 的 较 高 级 别 的 工具 。 例 如 ，ANSI C 提供 标准 
I/O 库 ， 包 含 像 printf 和 scanf 这 样 执行 市 缓冲 区 的 IO 函数 。C++ 语言 用 它 的 重 载 操 
作 符 <<( 输 入 ) 和 >>( 输 出 ) 提 供 了 类 似 的 功能 。 在 Linux 系统 中 ， 是 通过 使 用 由 内 核 提 供 的 
系统 级 Unix I/O 函数 来 实现 这 些 较 高 级 别 的 I/O 函数 的 。 大 多 数 时 候 ， 高 级 别 IO 函数 
工作 和 良好， 没有 必要 直接 使 用 Unix I/O。 那 么 为 什么 还 要 麻烦 地 学 习 Unix I/O 〇 呢 ? 

@ 了 解 Unix 1/ 〇 将 帮助 你 理解 其 他 的 系统 概念 。1/O 〇 是 系统 操作 不 可 或 缺 的 一 部 分 ， 因 

此 ， 我 们 经 常 遇 到 IO 和 其 他 系统 概念 之 间 的 循环 依赖 。 例 如 ，I/O 〇 在 进程 的 创建 和 
执行 中 扮演 着 关键 的 角色 。 反 过 来 ， 进 程 创建 又 在 不 同 进程 间 的 文件 共享 中 扮演 着 关 
键 角 色 。 因 此 ， 要 真正 理解 IO， 你 必须 理解 进程 ， 反 之 亦 然 。 在 对 存储 器 层次 结构 、 
链接 和 加 载 、 进 程 以 及 虚拟 内 存 的 讨论 中 ， 我 们 已 经 接触 了 IO 的 某 些 方面 。 既 然 你 
对 这 些 概念 有 了 比较 好 的 理解 ， 我 们 就 能 闭合 这 个 循环 ， 更 加 深入 地 研究 IO。 

@ 有 时 你 除了 使 用 Unix I/O 以 外 别 无 选择 。 在 某 些 重 要 的 情况 中 ， 使 用 高 级 1/O 也 
数 不 太 可 能 ， 或 者 不 太 合适 。 例 如 ， 标 准 I/O 库 没 有 提供 读 取 文件 元 数据 的 方式 ， 
例如 文件 大 小 或 文件 创建 时 间 。 另 外 ，L/O 库 还 存在 一 些 问题 ， 使 得 用 它 来 进行 网 
络 编程 非常 冒险 。 

这 一 章 介 绍 Unix I/O 和 标准 IO 的 一 般 概念 ， 并 且 回 你 展示 在 C 程序 中 如 何 可 靠 地 
使 用 它们 。 除 了 作为 一 般 性 的 介绍 之 外 ， 这 一 章 还 为 我 们 随后 学 习 网 络 编程 和 并 发 性 葛 定 
坚实 的 基础 。 


10. 1 Unix |/O 


一 个 Linux 文件 就 是 一 个 m 个 字 节 的 序列 : 
Bs B's we 本 *。 B: 
所 有 的 IO 设备 (例如 网 络 、 磁 盘 和 终端 ) 都 被 模型 化 为 文件 ， 而 所 有 的 输入 和 输出 都 被 当 
作对 相应 文件 的 读 和 写 来 执行 。 这 种 将 设备 优雅 地 映射 为 文件 的 方式 ， 人 允许 Linux 内 核 引 
出 一 个 简单 、 低 级 的 应 用 接口 ， 称 为 Unix I/O， 这 使 得 所 有 的 输入 和 输出 都 能 以 一 种 统 
一 且 一 致 的 方式 来 执行 : 
e 打开 文件 。 一 个 应 用 程序 通过 要 求 内 核 打 开 相 应 的 文件 ， 来 宣告 它 想 要 访问 一 个 
LO 设备。 内核 返回 一 个 小 的 非 负 整数 ， 叫 做 描述 符 ， 它 在 后 续 对 此 文件 的 所 有 操 
作 中 标识 这 个 文件 。 内 核 记 录 有 关 这 个 打开 文件 的 所 有 信息 。 应 用 程序 只 需 记 住 这 
个 描述 符 。 
e Linux shell 创建 的 每 个 进程 开始 时 都 有 三 个 打开 的 文件 : 标准 输入 (描述 符 为 0)、 标 准 
输出 (描述 符 为 1) 和 标准 错误 (描述 符 为 2)。 头 文件 < unistd.h> 定义 了 常量 STDIN 
FILENO、STDOUT FILENO 和 STDERR FILENO， 它 们 可 用 来 代替 显 式 的 描述 符 值 。 
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@ 改变 当前 的 文件 位 置 。 对 于 每 个 打开 的 文件 ， 内 核 保持 着 一 个 文件 位 置 k， 初 始 为 
0。 这 个 文件 位 置 是 从 文件 开头 起 始 的 字 节 偶 移 量 。 应 用 程序 能 够 通过 执行 seek 操 
作 ， 显 式 地 设置 文件 的 当前 位 置 为 &。 

e@ 读 写 文件 。 一 个 读 操作 就 是 从 文件 复制 2 之 0 个 字 节 到 内 存 ， 从 当前 文件 位 置 & 开 
始 ， 然 后 将 上 有 增加 到 名 十 nx。 给 定 一 个 大 小 为 m 字 节 的 文件 ， 当 & 宇 m 时 执行 读 操作 
会 触发 一 个 称 为 end-of-file(EOF) 的 条 件 ， 应 用 程序 能 检测 到 这 个 条 件 。 在 文件 结 
尾 处 并 没有 明确 的 “EOF 符号 ”。 

类 似 地 ， 写 操作 就 是 从 内 存 复 制 2 之 0 个 字 节 到 一 个 文件 ， 从 当前 文件 位 置 
开始 ， 然 后 更 新 AR。 

9 关闭 文件 。 当 应 用 完成 了 对 文件 的 访问 之 后 ， 它 就 通知 内 核 关 闭 这 个 文件 。 作 为 啊 
应 ， 内 核 释 放 文 件 打开 时 创建 的 数据 结构 ， 并 将 这 个 描述 符 恢 复 到 可 用 的 描述 符 池 
中 。 无 论 一 个 进程 因为 何 种 原因 终止 时 ， 内 核 都 会 关闭 所 有 打开 的 文件 并 释放 它们 
的 内 存 资源 。 


10.2 文件 


每 个 Linux 文件 都 有 一 个 类 型 (type) 来 表明 它 在 系统 中 的 角色 : 
@ 普通 文件 (regular file) 包 含 任意 数据 。 应 用 程序 常常 要 区 分 文本 文件 (text file) 和 二 
进 制 文件 (binary file)， 文 本 文件 是 只 含有 ASCII 或 Unicode 字符 的 普通 文件 ; 二 
进 制 文件 是 所 有 其 他 的 文件 。 对 内 核 而 言 ， 文 本 文件 和 二 进 制 文件 没有 区 别 。 
Linux 文本 文件 包含 了 一 个 文本 行 (text line) 序 列 ， 其 中 每 一 行 都 是 一 个 字符 序列 ， 
以 一 个 新 行 符 (“\ n”) 结 束 。 新 行 符 与 ASCII 的 换行 符 (LF) 是 一 样 的 ， 其 数字 值 为 0x0a。 
@ 目录 (directory) 是 包含 一 组 链接 (link) 的 文件 ， 其 中 每 个 链接 都 将 一 个 文件 名 
(filename) 了 映射 到 一 个 文件 ， 这 个 文件 可 能 是 另 一 个 目录 。 每 个 目录 至 少 含 有 两 个 
条 目 :“. ”是 到 该 目录 自身 的 链接 ， 以 及 “..” 是 到 目录 层次 结构 ( 见 下 文 ) 中 父 目 
录 (parent directory) 的 链接 。 你 可 以 用 mkdir 命令 创建 一 个 目录 ， 用 1s 查看 其 内 
容 ， 用 rmdir 删除 该 目录 。 
@ 套 接 字 (socket) 是 用 来 与 另 一 个 进程 进行 路 网 络 通信 的 文件 (11.4 节 )。 
其 他 文件 类 型 包含 命名 通道 (named pipe)、 符 号 链接 (symbolic link)， 以 及 字符 和 块 
设备 (character and block device) ， 这 些 不 在 本 书 的 讨论 范畴 。 
Linux 内 核 将 所 有 文件 都 组 织 成 一 个 目录 层次 结构 (directory hierarchy) ， 由 名 为 /( 斜 
杠 ) 的 根 目 录 确 定 。 系 统 中 的 每 个 文件 都 是 根 目 录 的 直接 或 间接 的 后 代 。 图 10-1 显示 了 
Linux 系统 的 目录 层次 结构 的 一 部 分 。 


bin/ dev/ etc/ home/ usr/ 





bash ttyl group passwd/ droh/ bryant/ include/ bin/ 


hello.c stdio.h sys/ vim 


unistd.h 


图 10-] Linux 目录 层次 的 一 部 分 。 尾 部 有 斜 杠 表示 是 目录 
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作为 其 上 下 文 的 一 部 分 ， 每 个 进程 都 有 一 个 当前 工作 目录 (current working directory) 
来 确定 其 在 目录 层次 结构 中 的 当前 位 置 。 你 可 以 用 cd 命令 来 修改 shell 中 的 当前 工作 
目录 。 
目录 层次 结构 中 的 位 置 用 路 径 名 (pathname) 来 指定 。 路 径 名 是 一 个 字符 串 ， 包 括 一 个 
可 选 斜 枉 ， 其 后 紧 跟 一 系列 的 文件 名 ， 文 件 名 之 间 用 斜 杠 分 隔 。 路 径 名 有 两 种 形式 : 
@ 绝对 路 径 名 (absolute pathname) 以 一 个 斜 枉 开 始 ， 表 示 从 根 节 点 开始 的 路 径 。 例 
如 ， 在 图 10-1 中 ，hello.c 的 绝对 路 径 名 为 /home/droh/Vhe1Llo.c。 
@ 相对 路 径 名 (relative pathname) 以 文件 名 开始 ， 表 示 从 当前 工作 目录 开始 的 路 径 。 
例如 ， 在 图 10-1 中 ， 如 果 /home/droh 是 当前 工作 目录 ， 那 么 hello.c 的 相对 路 径 
名 就 是 ./hello.c。 反 之 ， 如 果 /home/bryant 是 当前 工作 目录 ， 那 么 相对 路 径 名 
就 是 ../home/droh/hello.c。 


10.3 打开 和 关闭 文件 
进程 是 通过 调用 open 函数 来 打开 一 个 已 存在 的 文件 或 者 创建 一 个 新 文件 的 : 


#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 


int open(char *filename, int flags, mode_t mode) ; 
返回 : 若 成 功 则 为 新 文件 描述 符 ， 若 出 错 为 一 1。 





open 函数 将 filename 转换 为 一 个 文件 描述 符 ， 并 且 返 回 描述 符 数字 。 人 返回 的 描述 符 总 
是 在 进程 中 当前 没有 打开 的 最 小 描述 符 。f1lags 参数 指明 了 进程 打算 如 何 访问 这 个 文件 : 

e 0O RDONLY: 只 读 。 

e 0O WRONLY: 只 写 。 

e 0O RDWR: 可 读 可 写 。 

例如 ， 下 面 的 代码 说 明 如 何以 读 的 方式 打开 一 个 已 存在 的 文件 : 

fd = Open("foo.txt", O_RDONLY, 0); 


flags 参数 也 可 以 是 一 个 或 者 更 多 位 掩 码 的 或 ， 为 写 提供 给 一 些 额 外 的 指示 : 
e O_CREAT: 如 果 文 件 不 存在 ， 就 创建 它 的 一 个 截断 的 (truncated)( 空 ) 文 件 。 
e O_TRUNC: 如 果 文 件 已 经 存在 ， 就 截断 它 。 

e O_APPEND: 在 每 次 写 操作 前 ， 设 置 文件 位 置 到 文件 的 结尾 处 。 

例如 ， 下 面 的 代码 说 明 的 是 如 何 打开 一 个 已 存在 文件 ， 并 在 后 面 添加 一 些 数 据 : 
fd = Open("foo.txt", O_WRONLY|O_APPEND, O's 


mode 参数 指定 了 新 文件 的 访问 权限 位 。 这 些 位 的 符号 名 字 如 图 10-2 所 示 。 

作为 上 下 文 的 一 部 分 ， 每 个 进程 都 有 一 个 umask， 它 是 通过 调用 umask 哨 数 来 设置 
的 。 当 进程 通过 带 某 个 mode 参数 的 open 函数 调用 来 创建 一 个 新 文件 时 ， 文件 的 访问 权 
限 位 被 设置 为 mode & ~ umask。 例 如 ， 假 设 我 们 给 定 下 面 的 mode 和 umask 默认 值 : 

#define DEF_MODE S_IRUSR|S_IWUSR|S_IRGRP|S_IWGRP|S_IROTH|S_IWOTH 

#define DEF_UMASK S_IWGRP|S_IWOTH 


接 下 来 ， 下 面 的 代码 片段 创建 一 个 新 文件 ， 文 件 的 拥有 者 有 读 写 权 限 ， 而 所 有 其 他 的 
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用 户 都 有 读 权 限 : 
umask (DEF_UMASK) ; 
fd = Open("foo.txt", O0_CREAT|O_TRUNC|O_WRONLY, DEF_MODE); 


使 用 者 (拥有 者 〉 能 够 读 这 个 文件 
使 用 者 (拥有 者 ) 能 够 写 这 个 文件 
使 用 者 (拥有 者 ) 能够 执行 这 个 文件 


拥有 者 所 在 组 的 成 员 能 够 读 这 个 文件 


拥有 者 所 在 组 的 成 员 能 够 写 这 个 文件 
拥有 者 所 在 组 的 成 员 能 够 执行 这 个 文件 


其 他 人 【任何 人 ) 能 够 读 这 个 文件 
其 他 人 《【 任 何人) 能 够 写 这 个 文件 
其 他 人 【任何 人 ) 能 够 执行 这 个 文件 





图 10-2 访问 权限 位 。 在 sys/stat.h 中 定义 
最 后 ， 进 程 通 过 调用 close 函数 关闭 一 个 打开 的 文件 。 


#include <unistd.h> 


int close(int fd); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





关闭 一 个 已 关闭 的 描述 符 会 出 错 。 
富强 练 习题 10. 1 下 面 程序 的 输出 是 什么 ? 


1 #include "csapp.h" 

2 

3 int main() 

4 苹 

5 nt Fdl1, a2; 

6 

7 fdi = Open("foo.txt", 0_RDONLY, 0); 
8 Close (fd1); 

9 fd2 = Open("baz.txt", 0O_RDONLY, 0); 
10 printf("fd2 = %d\n", fd2); 

11 exit(0); 

i2 J} 


10.4 读 和 写 文 件 
应 用 程序 是 通过 分 别 调用 read 和 write 函数 来 执行 输入 和 输出 的 。 


#include <unistd.h> 


ssize_t read(int fd, void *buf, size_t n); 
返回 ; 若 成 功 则 为 读 的 字 节 数 ， 若 EOF 则 为 0， 若 出 错 为 一 1。 


ssize_t write(int fd, const void *buf, size_t n); 
返回 ; 若 成 功 则 为 写 的 字 节 数 ， 若 出 错 则 为 一 1。 
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read 函数 从 描述 符 为 fd 的 当前 文件 位 置 复制 最 多 nn 个 字 节 到 内 存 位置 puf。 返 回 值 一 1 
表示 一 个 错误 ， 而 返回 值 0 表示 EOF。 否 则 ， 返回 值 表示 的 是 实际 传送 的 字 节 数量 。 

write 了 浮 数 从 内 存 位 置 buf 复制 至 多 7 个 字 节 到 描述 符 fa 的 当前 文件 位 置 。 图 10-3 展 
示 了 一 个 程序 使 用 read 和 write 调用 一 次 一 个 字 节 地 从 标准 输入 复制 到 标准 输出 。 


code/io/cpstdin.c 
#include "csapp.h" 


2 

3 int main(void) 

4 1 

5 char c; 

6 

7 while(Read(STDIN_FILENO, &c, 1) != 0) 
8 Write(STDOUT_FILENO, &c, 1); 

9 exit (0); 

10 } 


code/io/cpstdin.c 
图 10-3 一 次 一 个 字 节 地 从 标准 输入 复制 到 标准 输出 


通过 调用 lseek 函数 ， 应 用 程序 能 够 显示 地 修改 当前 文件 的 位 置 ， 这 部 分 内 容 不 在 我 
们 的 讲述 范围 之 内 。 


EE ssize_t 和 size_t 有 些 什么 区 别 ? 

你 可 能 已 经 注意 到 了 ，read 函数 有 一 个 size Ee 一 个 ssize 七 的 返 
回 值 。 那 么 这 两 种 类 型 之 间 有 什么 区 别 呢 ?在 x86-64 系统 中 ，size 七 被 定义 为 un- 
signed long， 而 ssize t( 有 符号 的 大 小 ) 被 定义 为 long。read 函数 返回 一 个 有 符号 
的 大 小 ， 而 不 是 一 个 无 符号 大 小 ， 这 是 因为 出 错时 它 必须 返回 一 1|。 有 趣 的 是 ， 返 回 一 
个 一 1 的 可 能 性 使 得 read 的 最 大 值 减 小 了 一 半 。 


在 某 些 情况 下 ，read 和 write 传送 的 字 节 比 应 用 程序 要 求 的 要 少 。 这 些 不 足 值 (short 
count) 不 表示 有 错误 。 出 现 这 样 情况 的 原因 有 : 
e@ 读 时 遇 到 下 OF。 假设 我 们 准备 读 一 个 文件 ， 该 文件 从 当前 文件 位 置 开 始 只 含有 20 
多 个 字 节 ， 而 我 们 以 50 个 字 节 的 片 进行 读 取 。 这 样 一 来 ， 下 一 个 read 返回 的 不 足 
值 为 20， 此 后 的 read 将 通过 返回 不 足 值 0 来 发 出 EOF 信号 
@ 从 终端 读 文本 行 。 如 果 打 开 文 件 是 与 终端 相关 联 的 (如 键盘 和 显示 硕 )， 那 么 每 个 
read 函数 将 一 次 传送 一 个 文本 行 ， 返 回 的 不 足 值 等 于 文本 行 的 大 小 。 
@ 读 和 写 网 络 套 接 字 (socket)。 如 果 打 开 的 文件 对 应 于 网 络 套 接 字 (11.4 市 )， 那么 内 
部 缓冲 约束 和 和 较 长 的 网 络 延 迟 会 引起 read 和 write 返回 不 足 值 。 对 Linux 管道 
(pipe) 调 用 read 和 write 时 ， 也 有 可 能 出 现 不 足 值 ， 这 种 进程 间 通 信 机 人 制 不 在 我 
们 讨论 的 范围 之 内 。 
实际 上 ， 除 了 EOF， 当 你 在 读 磁 盘 文 件 时 ， 将 不 会 遇 到 不 足 值 ， 而 且 在 写 磁盘 文件 时 ， 
也 不 会 遇 到 不 足 值 。 然 而 ， 如 果 你 想 创建 健壮 的 (可 靠 的 ) 诸 如 Web 服务 器 这 样 的 网 络 应 用 ， 
就 必须 通过 反复 调用 read 和 write 处 理 不 足 值 ， 直 到 所 有 需要 的 字 节 都 传送 完毕 。 


10.5 用 RIO 包 健壮 地 读 与 
在 这 一 小 节 里 ， 我 们 会 讲述 一 个 MO 包 ， 称 为 RIOCRobust IO， 健 壮 的 IO) 包 ， 它 
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会 自动 为 你 处 理 上 文中 所 述 的 不 足 值 。 在 像 网 络 程序 这 样 容易 出 现 不 足 值 的 应 用 中 ，RIO 
包 提 供 了 方便 、 健 壮 和 高 效 的 IO。RIO 提供 了 两 类 不 同 的 孔 数 : 
e 无 缓冲 的 输入 输出 函数 。 这 些 函 数 直 接 在 内 存 和 文件 之 间 传 送 数据 ， 没 有 应 用 级 组 
冲 。 它 们 对 将 二 进 制 数据 读 写 到 网 络 和 从 网 络 读 写 二 进 制 数据 尤其 有 用 。 
9 市 缓冲 的 输入 函数 。 这 些 函 数 允 许 你 高 效 地 从 文件 中 读 取 文本 行 和 二 进 制 数 据 ， 这 
些 文 件 的 内 容 缓 存在 应 用 级 缓冲 区 内 ， 类 似 于 为 printf 这 样 的 标准 IO 函数 提供 
的 缓冲 区 。 与 L110j 中 讲述 的 带 缓冲 的 IO 例 程 不 同 ， 带 缓冲 的 RIO 输入 函数 是 线 
程 安全 的 (12.7.1 节 )， 它 在 同一 个 描述 符 上 可 以 被 交错 地 调用 。 例 如 ， 你 可 以 从 一 
个 描述 符 中 读 一 些 文本 行 ， 然 后 谈 取 一 些 二 进 制 数据 ， 接 着 再 多 读 取 一 些 文本 行 。 
我 们 讲述 RIO 例 程 有 两 个 原因 。 第 一 ， 在 接 下 来 的 两 章 中 ， 我 们 开发 的 网 络 应 用 中 使 用 
了 它们 ; 第 二 ， 通 过 学 习 这 些 例 程 的 代码 ， 你 将 从 总 体 上 对 Unix IO 有 更 深入 的 了 解 。 


10. 5. 1 RIO 的 无 缓冲 的 输入 输出 函数 
通过 调用 rio readn 和 rio writen 函数 ， 应 用 程序 可 以 在 内 存 和 文件 之 间 直 接 传送 数据 。 
#include "csapp.h" 


ssize_t rio_readn(int fd, void *usrbuf, size 七 n); 


ssize_t rio_ writen(int fd, void *usrbuf, size_t n); 
返回 : 车 成 功 则 为 传送 的 字 节 数 ， 若 EOF 则 为 0( 只 对 rio readn 而 言 )， 若 出 错 则 为 一 1。 





rio_readn 函数 从 描述 符 fd 的 当前 文件 位 置 最 多 传送 nn 个 字 节 到 内 存 位 置 usrbuf。 
类 似 地 ，rio writen 函数 从 位 置 usrbuf 传送 nn 个 字 节 到 描述 符 fd。rio read 国 数 在 遇 
到 EOF 时 只 能 返回 一 个 不 足 值 。rio writen 图 数 决 不 会 返回 不 足 值 。 对 同一 个 描述 符 ， 
可 以 任意 交错 地 调用 rio readn 和 rio writen。 

图 10-4 显示 了 rio readn 和 rio writen 的 代码 。 注 意 ， 如 果 rio readn 和 rio 
writen 图 数 被 一 个 从 应 用 信号 处 理 程序 的 返回 中 断 ， 那 么 每 个 图 数 都 会 手动 地 重启 read 或 
write。 为 了 尽 可 能 有 较 好 的 可 移植 性 ， 我 们 允许 被 中 断 的 系统 调用 ， 且 在 必要 时 重启 它们 。 


10. 5.2 RIO 的 市 缓冲 的 输入 函数 


假设 我 们 要 编写 一 个 程序 来 计算 文本 文件 中 文本 行 的 数量 ， 该 如 何 来 实现 呢 ? 一 种 方 
法 就 是 用 read 函数 来 一 次 一 个 字 节 地 从 文件 传送 到 用 户 内 存 ， 检 查 每 个 字 节 来 查找 换行 
符 。 这 个 方法 的 缺点 是 效率 不 是 很 高 ， 每 读 取 文件 中 的 一 个 字 节 都 要 求 隐 人 内 核 。 

一 种 更 好 的 方法 是 调用 一 个 包装 函数 (rio readlineb) ， 它 从 一 个 内 部 读 缓冲 区 复制 一 个 
文本 行 ， 当 缓冲 区 变 空 时 ， 会 自动 地 调用 read 重新 填 满 缓冲 区 。 对 于 既 包 含 文本 行 也 包含 二 
进 制 数据 的 文件 (例如 11. 5. 3 节 中 描述 的 HTTP 响应 )， 我 们 也 提供 了 一 个 rio readn 带 缓 冲 
区 的 版 本 ， 叫 做 rio readnb， 它 从 和 rio readlineb 一 样 的 读 缓冲 区 中 传送 原始 字 节 。 


#include "csapp.h" 


void rio_readinitb(rio t *rp, int fd); 


ssize_t Trio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen); 
ssize_t rio_readnb(rio_t *rp, void *usrbuf, size_t n); 
返回 : 车 成 功 则 为 读 的 字 节 数 ， 若 EOF 则 为 0， 若 出 错 则 为 一 1。 
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code/src/csapp.c 


ssize_t rio_readn(int fd, void *usrbuf, size_t n) 


{ 


size_t nleft = n; 
ssize_t nread; 
char *bufp = usrbuf,; 


while (nleft > 0) + 
if ((nread = read(fd, bufp, nleft)) < 0) { 
if (errno == EINTR) /* Interrupted by sig handler return */ 


nread = 0; /* and call read() again */ 
else 
return -1; /* errno set by read() */ 
T 
else if (nread == 0) 
break; /* EOF */ 
nleft -= nread,; 
bufp += nread,; 
} 
return (n - nleft); /* Return >= 0 */ 


code/src/csapp.c 


code/src/csapp.c 


ssize _t rio writen(int fd, void *usrbuf, size_t n) 


{ 


size_t nleft = n; 
ssize_t nwritten,; 
char *bufp = usrbuf; 


while (nleft > 0) 工 
if ((nwritten = write(fd, bufp, nleft)) <= 0) 工 
if (errno == EINTR) /* Interrupted by sig handler return */ 


nwritten = 0; /* and call write() again */ 
else 
FeOturn =1: /* errno set by write() */ 
} 
nleft -= nwritten; 
bufp += nwritten; 
} 
return n; 


code/src/csapp.c 


图 10-4 rio readn 和 rio writen 函数 


每 打开 一 个 描述 符 ， 都 会 调用 一 次 rio readinitb 函数 。 它 将 描述 符 fa 和 地 址 rp 
处 的 一 个 类 型 为 rio 上 的 读 缓 冲 区 联系 起 来 。 

rio readlineb 图 数 从 文件 rp 读 出 下 一 个 文本 行 (包括 结尾 的 换行 符 )， 将 它 复制 到 
内 存 位 置 usrbuf， 并 且 用 NULL( 零 ) 字 符 来 结束 这 个 文本 行 。rio_readlineb 函数 最 多 
读 maxlen- 1 个 字 节 ， 余 下 的 一 个 字符 留 给 结尾 的 NULL 字符 。 超 过 maxlen-1 字 节 的 文 
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本 行 被 截断 ， 并 用 一 个 NULL 字符 结束 。 

rio_readnb 图 数 从 文件 rp 最 多 读 nn 个 字 节 到 内 存 位 置 usrbuf。 对 同一 描述 符 ， 对 
rio readlineb 和 rio readnb 的 调用 可 以 任意 交叉 进行 。 然 而 ， 对 这 些 带 缓冲 的 函数 的 
调用 却 不 应 和 无 缓冲 的 rio readn 函数 交叉 使 用 。 

在 本 书 剩 下 的 部 分 中 将 给 出 大 量 的 RIO 函数 的 示例 。 图 10-5 展示 了 如 何 使 用 RIO 函 
数 来 一 次 一 行 地 从 标准 输入 复制 一 个 文本 文件 到 标准 输出 。 


code/io/cpfile.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argVv) 
4 苹 
5 int 卫 ; 
6 ri0.t 工业 Gy 
7 char buf [MAXLINE]; 
8 
9 Rio_readinitb(&rio, STDIN_FILENO); 
10 while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) 
11 Rio_writen(STDOUT_FILENO, buf, n); 
12  } 
code/io/cpfile.c 


图 10-5 从 标准 输入 复制 一 个 文本 文件 到 标准 输出 


图 10-6 展示 了 一 个 读 缓冲 区 的 格式 ， 以 及 初始 化 它 的 rio_readinitb 函数 的 代码 。 
rio readinitpb 函数 创建 了 一 个 空 的 读 缓冲 区 ， 并且 将 一 个 打开 的 文件 描述 符 和 这 个 缓 
冲 区 联系 起 来 。 


code/include/csapp.h 
1 #define RIO_BUFSIZE 8192 
2 typedef struct +{ 
3 int rio_fd; /* Descriptor for this internal buf */ 
4 int rio_cnt; /* Unread bytes in internal buf */ 
5 char *rio_bufptr; /* Next unread byte in internal buf */ 
6 char rio_buf [RIO_BUFSIZE]; /* Internal buffer */ 
7 rio.t; 
code/include/csapp.h 
code/src/csapp.c 
1 void rio_readinitb(rio_t *rp, int fd) 
2 
3 rp->rio,fd = fd; 
4 rp->ri0. ent = 0 
5 rp->rio_bufptr = rp->rio_buf; 
6 
code/src/csapp.c 
图 10-6 一 个 类 型 为 rio 上 的 读 缓冲 区 和 初始 化 它 的 rio readinitb 函数 


RIO 读 程 序 的 核心 是 图 10-7 所 示 的 rio read 图 数 。rio read 函数 是 Linux read 郴 
数 的 带 缓冲 的 版 本 。 当 调用 rio_read 要 求 读 n 个 字 节 时 ， 读 缓冲 区 内 有 rp->rio _cnt 
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个 未 读 字 节 。 如 果 缓 冲 区 为 空 ， 那么 会 通过 调用 read 再 填 满 它 。 这 个 read 调用 收 到 一 
个 不 足 值 并 不 是 错误 ， 只 不 过 读 缓 冲 区 是 填充 了 一 部 分 。 一 旦 缓冲 区 非 空 ，rio read 就 
从 读 缓 冲 区 复制 n 和 ve 中 较 小 值 个 字 节 到 用 户 缓冲 区 ， 并 返回 复制 的 字 节 数 。 


code/src/csapp.c 
1 static ssize_t rio_read(rio_t *rp, char *usrbuf, size_t n) 
2 1 
3 int cnt; 
4 
5 while (rp->rio_cnt <= 0) { /* Refill if buf is empty */ 
6 rp->rio_cnt = read(rp->rio_fd, rp->rio_buf, 
7 sizeof (rp->rio_buf)); 
8 if (rp->rio_cnt < 0) { 
9 if (errno != EINTR) /* Interrupted by sig handler return */ 
10 return -1; 
11 } 
12 else if (rp->rio_cnt == 0) /* EOF */ 
13 return 0; 
14 else 
15 rp->rio_bufptr = rp->rio_buf; /* Reset buffer ptr */ 
16 } 
17 
18 /* Copy min(n, rp->rio_cnt) bytes from internal buf to user buf */ 
19 cnt = 卫 ; 
20 if (rp->rio_cnt < n) 
21 cnt = rp->rio_cnt; 
22 memcpy (usrbuf, rp->rio_bufptr, cnt); 
23 rp->rio_bufptr += cnt; 
24 rp->rio_cnt -= cnt; 
25 return cnt; 
26 } 


code/src/csapp.c 
图 10-7 内 部 的 rio read 函数 


对 于 一 个 应 用 程序 ，rio read 函数 和 Linux read 函数 有 同样 的 语义 。 在 出 错时 ， 它 
返回 值 一 1， 并 且 适 当地 设置 errno。 在 EOF 时 ， 它 返回 值 0。 如 果 要 求 的 字 节 数 超 过 了 
读 缓冲 区 内 未 读 的 字 节 的 数量 ， 它 会 返回 一 个 不 足 值 。 两 个 函数 的 相似 性 使 得 很 容易 通过 
用 rio_read 代替 read 来 创建 不 同类 型 的 带 缓冲 的 读 函 数 。 例 如 ， 用 rio_read 代替 
read， 图 10-8 中 的 rio readnb 了 葬 数 和 rio readn 有 相同 的 结构 。 相 似 地 ， 图 10-8 中 的 
rio readlineb 程序 最 多 调用 maxlen-1 次 rio read。 每 次 调用 都 从 读 缓 冲 区 返回 一 个 
字 节 ， 然 后 检查 这 个 字 贡 是 否 是 结尾 的 换行 符 。 


锚 习 Rio 包 的 起 源 

RIO 函数 的 灵感 来 自 于 W., Richard Stevens 在 他 的 经 典 网 络 编程 作品 [110 | 中 描述 
的 readline、readn 和 writen 函数 。rio readn 和 rio writen 函数 与 Stevens 的 
readn 和 writen 函数 是 一 样 的 。 然 而 ，Stevens 的 readline 函数 有 一 些 局 限 性 在 RIO 
中 得 到 了 纠正 。 第 一 ， 因 为 readline 是 带 缓冲 的 ， 而 :readn 不 带 ， 所 以 这 两 个 函数 不 
能 在 同一 描述 符 上 一 起 使 用 。 第 二 ， 因 为 它 使 用 一 个 static 缓冲 区 ，Stevens 的 readline 
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函数 不 是 线程 安全 的 ， 这 就 要 求 Stevens 引入 一 个 不 同 的 线程 安全 的 版 本 ， 称 为 read- 
line r。 我 们 已 经 在 rio readlineb 和 rio readnb 函数 中 修改 了 这 两 个 缺陷 ， 使 得 
这 两 个 函数 是 相互 兼容 和 线程 安全 的 。 


code/src/csapp.c 
1 ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen) 
2  { 
3 nt Ds YG 
4 char c, *bufp = usrbuf; 
5 
四 for (n = 1; n < maxlen; n++) { 
7 if ((rc = rio_read(rp, &c, 1)) == 1) { 
8 *bufpt++ = Cj 
9 if (c == '\n') { 
10 n++; 
11 break; 
12 } 
13 } else if (rc == 0) { 
14 if (na == 1) 
15 return 0; /* EOF, no data read */ 
16 else 
17 break ; /* EOF, some data was Tead */ 
18 上 else 
19 return -1; /* Error */ 
20 } 
21 *bufp = 0; 
22 return n-1; 
23 } 
code/src/csapp.c 
code/src/csapp.c 
1 ssize_t rio_readnb(rio.t *rp, void *usrbuf, size_t n) 
2 到 
3 size_t nleft = n; 
4 ssize_t nread; 
5 char *bufp = usrbuf; 
6 
7 while (nleft > 0) { 
8 if ((nread = rio_read(rp, bufp, nleft)) < 0) 
9 return -1; /* errno set by read() */ 
10 else if (nread == 0) 
11 break ; /* EOF */ 
12 nleft -= nread,; 
13 bufp += Dread ; 
14 } 
15 return (n - nleft); /* Return >= 0 */ 
16 } 


code/src/csapp.c 


到 10-8 rio readlineb 和 rio readnb 因数 
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10.6 读 取 文件 元 数据 


应 用 程序 能 够 通过 调用 stat 和 fstat 图 数 ， 检 索 到 关于 文件 的 信息 (有 时 也 称 为 文 
件 的 元 数据 (metadata) ) 。 


#include <unistd.h> 
#include <sys/stat.h> 


int stat(const char *filename, struct stat *buf); 
int fstat(int fd, struct stat *buf); 


返回 ; 车 成 功 则 为 0， 若 出 错 则 为 一 1。 





stat 图 数 以 一 个 文件 名 作为 输入 ， 并 填写 如 图 10-9 所 示 的 一 个 stat 数据 结构 中 的 
各 个 成 员 。fstat 函数 是 相似 的 ， 只 不 过 是 以 文件 描述 符 而 不 是 文件 名 作为 输入 。 当 我 们 
在 11. 5 节 中 讨论 Web 服务 器 时 ， 会 需要 stat 数据 结构 中 的 st mode 和 st size 成 员 ， 
其 他 成 员 则 不 在 我 们 的 讨论 之 列 。 
statbuf:h (included by sys/stat.h) 


/* Metadata returned by the stat and fstat functions */ 
struct stat { 


dev_t st_dev: /* Device */ 

ino 七 st_ino; /* inode */ 

mode._t st_mode; /* Protection and file type */ 
nlink._t st_nlink; /* Number of hard links */ 

uid_t st_uid; /* User ID of owner */ 

gid st_gid; /* Group ID of owner */ 

dev_t St_rdev; /* Device type (if inode device) */ 
off._t st_size; /* Total size, in bytes */ 


unsigned long st_blksize; /* Block size for filesystem I/0 */ 
unsigned long st_blocks; /* Number of blocks allocated */ 


time._t st_atime; A* Time of last access */ 
time._t st_mtime; jx Time of last modification */ 
time._t st_ctime; /* Time of last change */ 


statbuf.h (included by sys/stat.h) 
图 10-9 ”stat 数据 结构 


st size 成 员 包 含 了 文件 的 字 节 数 大 小 。st mode 成 员 则 编码 了 文件 访问 许可 位 (图 
10-2) 和 文件 类 型 (10. 2 节 )。Linux 在 sys/stat.h 中 定义 了 宏 谓 词 来 确定 st mode 成 员 
的 文件 类 型 : 

S_ISREG(m)。 这 是 一 个 普通 文件 吗 ? 

S_ISDIR(m)。 这 是 一 个 目录 文件 吗 ? 

S_ISSOCK(m) 。 这 是 一 个 网 络 套 接 字 吗 ? 

图 10-10 展示 了 我 们 会 如 何 使 用 这 些 宏和 stat 函数 来 读 取 和 解释 一 个 文件 的 st 


mode 位 。 
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code/io/statcheck.c 
1 #include "csapp.h" 
2 
3 int main (int argc, char **argvV) 
4 i 
5 struct stat stat ; 
6 char *type, *readok,; 
7 
& Stat (argv[1], &stat); 
9 if (S_ISREG(stat.st_mode)) /* Determine file type */ 
10 type = "regular"; 
11 else if (S_ISDIR(stat.st_mode)) 
12 type = "directory"; 
3 else 
14 type = "other"; 
15 if ((stat.st_mode & S_IRUSR)) /* Check read access */ 
16 readok = "yes"; 
yy else 
18 readok = "mo" ; 
19 
20 printf("type: %s, read: hs\n", type, readok); 
21 exit (0); 
22 3} 
code/io/statcheck.c 
图 10-10 查询 和 处 理 一 个 文件 的 st mode 位 


10. 7 读 取 目录 内 容 
应 用 程序 可 以 用 readdir 系列 浮 数 来 读 取 目录 的 内 容 。 


#include <sys/types.h> 
#include <dirent.h> 


DIR *opendir(const char *name); 
返回 : 若 成 功 ， 则 为 处 理 的 指针 ; 若 出 错 ， 则 为 NULL。 





函数 opendir 以 路 径 名 为 参数 ， 返 回 指 问 目 录 流 (directory stream) 的 指针 。 流 是 对 
条 目 有 序列 表 的 抽象 ， 在 这 里 是 指 目录 项 的 列表 。 


#include <dirent .hbh> 


struct dirent *readdir (DIR *dirp); 
返回 : 若 成 功 ， 则 为 指向 下 一 个 目录 项 的 指针 ; 若 没 有 更 多 的 目录 项 或 出 错 ， 则 为 NULL。 





每 次 对 readdir 的 调用 返回 的 都 是 指向 流 dirp 中 下 一 个 目录 项 的 指针 ， 或 者 ， 如 果 
没有 更 多 目录 项 则 返回 NULL。 每 个 目录 项 都 是 一 个 结构 ， 其 形式 如 下 : 
struct dirent { 
ino 七 dino; /* inode number */ 
char d_name[256]; /* Filename */ 
a 
虽然 有 些 Linux 版 本 包含 了 其 他 的 结构 成 员 ， 但 是 只 有 这 两 个 对 所 有 系统 来 说 都 是 标 
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准 的 。 成 员 d_name 是 文件 名 ，qd ino 是 文件 位 置 。 
如 果 出 错 ， 则 readdir 返回 NULL， 并 设置 errno。 可 惜 的 是 ， 唯 一 能 区 分 错误 和 
流 结 束 情 况 的 方法 是 检查 自 调 用 readdir 以 来 errno 是 否 被 修改 过 。 


#include <dirent .hbh> 


int closedir(DIR *dirp); 


返回 : 成 功 为 0; 错误 为 一 1。 





函数 closedir 关闭 流 并 释放 其 所 有 的 资源 。 图 10-11 展示 了 怎样 用 readdir 来 读 取 
目录 的 内 容 。 


code/io/readdir.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 苹 
5 DIR *streamp; 
6 struct dirent *dep; 
7 
8 streamp = Opendir(argvl1]); 
9 
10 errno = 0; 
11 while ((dep = readdir(streamp)) != NULL) { 
12 printf ("Found file: %hs\n", dep->d_name); 
13 } 
14 if (errno != 0) 
15 unix_error("readdir error'"); 
16 
17 Closedir (streamp); 
18 exit(0); 
19 才 
code/io/readdir.c 


图 10-11 读 取 目录 的 内 容 


10.8 共享 文件 


可 以 用 许多 不 同 的 方式 来 共享 Linux 文件 。 除 非 你 很 清楚 内 核 是 如 何 表示 打开 的 文 
件 ， 否 则 文件 共享 的 概念 相当 难 懂 。 内 核 用 三 个 相关 的 数据 结构 来 表示 打开 的 文件 : 

@ 描述 符 表 (descriptor table)。 每 个 进程 都 有 它 独立 的 描述 符 表 ， 它 的 表 项 是 由 进程 
打开 的 文件 描述 符 来 索引 的 。 每 个 打开 的 描述 符 表 项 指向 文件 表 中 的 一 个 表 项 。 

@ 文件 表 (file table) 。 打 开 文 件 的 集合 是 由 一 张 文 件 表 来 表示 的 ， 所 有 的 进程 共享 这 
张 表 。 每 个 文件 表 的 表 项 组 成 (针对 我 们 的 目的 ) 包 括 当 前 的 文件 位 置 、 引 用 计数 
(reference count)( 即 当前 指向 该 表 项 的 描述 符 表 项 数 )， 以 及 一 个 指 问 v-node 表 中 
对 应 表 项 的 指针 。 关 闭 一 个 描述 符 会 减少 相应 的 文件 表 表 项 中 的 引用 计数 。 内 核 不 
会 删除 这 个 文件 表 表 项 ， 直 到 它 的 引用 计数 为 零 。 
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e v-node 表 (v-node table) 。 同 文件 表 一 样 ， 所 有 的 进程 共享 这 张 v-node 表 。 每 个 表 
项 包含 stat 结构 中 的 大 多 数 信息 ， 包 括 st mode 和 st size 成 员 。 
图 10-12 展示 了 一 个 示例 ， 其 中 描述 符 1 和 4 通过 不 同 的 打开 文件 表 表 项 来 引用 两 个 
不 同 的 文件 。 这 是 一 种 典型 的 情况 ， 没 有 共享 文件 ， 并 且 每 个 描述 符 对 应 一 个 不 同 的 
文件 。 












描述 符 表 打开 文件 表 v-node 表 
( 每 个 进程 一 张 表 ) (所 有 进程 共享 ) (所 有 进程 共享 ) 
文件 A 
stdin fa0[ | | 文件 访问 
stdout fd1| | 文件 位 置 文件 大 小 
stderr fd2| | 
fd3| | 
fd4L | | | 





文件 B 
refcnt=1 文件 类 型 
1 | 
图 10-12 典型 的 打开 文件 的 内 核 数 据 结 构 。 在 这 个 示例 中 ， 

两 个 描述 符 引 用 不 同 的 文件 。 没 有 共享 


如 图 10-13 所 示 ， 多 个 描述 符 也 可 以 通过 不 同 的 文件 表 表 项 来 引用 同一 个 文件 。 例 
如 ， 如 果 以 同一 个 filename 调用 open 函数 两 次 ， 就 会 发 生 这 种 情况 。 关 键 思想 是 每 个 


描述 符 都 有 它 上 自己 的 文件 位 置 ， 所 以 对 不 同 描 述 符 的 读 操作 可 以 从 文件 的 不 同位 置 获取 
数据 。 





描述 符 表 打开 文件 表 v-node 表 
( 每 个 进程 一 张 表 ) ( 所 有 进程 共享 ) ( 所 有 进程 共享 ) 
文件 A 





图 10-13 文件 共享 。 这 个 例子 展示 了 两 个 描述 符 通过 两 个 
打开 文件 表 表 项 共享 同一 个 磁盘 文件 


我 们 也 能 理解 父子 进程 是 如 何 共享 文件 的 。 假 设 在 调用 fork 之 前 ， 父 进程 有 如 图 10-12 
所 示 的 打开 文件 。 然 后 ， 图 10-14 展示 了 调用 fork 后 的 情况 。 子 进程 有 一 个 父 进程 描 
述 符 表 的 副本 。 父 子 进程 共享 相同 的 打开 文件 表 和 集合 ， 因 此 共享 相同 的 文件 位 置 。 一 个 
很 重要 的 结果 就 是 ， 在 内 核 删 除 相应 文件 表 表 项 之 前 ， 父 子 进程 必须 都 关闭 了 它们 的 描 
述 符 。 


636 第 三 部 分 程序 间 的 交互 和 通信 













打开 文件 表 v-node 表 
描述 得 表 ( 所 有 进程 共享 ) ( 所 有 进程 共享 ) 
父 进 程 的 表 文件 A 

fd0| 
fd2 
fd3| 


文件 访问 


fdl| | 文件 大 小 
fd2| 文件 类 型 
fd3| | 





[| 
图 10-14 子 进 程 如 何 继承 父 进程 的 打开 文件 。 初 始 状 态 如 图 10-12 所 示 


ES 练习 题 10.2 ”假设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 组 成 。 那 
么 ， 下 列 程序 的 输出 是 什么 ? 


1 #include "csapp.h" 

2 

3 int main() 

4 攻 

5 nb Ful Ta 

6 char c; 

7 | 

8 fdi = Open("foobar.txt", 0_RDONLY, 0); 
9 fd2 = OQpen("foobar.txt", 0_RDONLY, 0); 
10 Read(fdi, &c, 1); 

11 Read(fd2, &c, 1); 

12 printf("ce = XeNa", €); 

13 exit (0); 

14 } 





练习 题 10. 3 就 像 前 面 那 样 ， 假 设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字 符 “foobar” 
组 成 。 那 么 下 列 程序 的 输出 是 什么 ? 
#include "csapp.h" 


1 

2 

3 int main() 

4 1 

5 int fd; 

6 char 区， 

7 

8 fd = 0pen("foobar .txt"，0_RDONLY，0) ; 
9 if (Fork() == 0) { 
10 Read(fd, &c, 1); 
11 exit(0); 
12 } 
13 Wait (NULL) ; 
14 Read(fd, &c, 1); 
15 printf("e = Ye\n", 6}; 
16 exit(0); 
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10.9 IO 重 定 向 


Linux shell 提供 了 LI/O 重 定 向 操作 符 ， 人 允许 用 户 将 磁盘 文件 和 标准 输入 输出 联系 起 
来 。 例 如 ， 键 入 


linux> 1s > foo.txt 


使 得 shell 加 载 和 执行 1s 程序 ， 将 标准 输出 重 定向 到 磁盘 文件 foo.txt。 就 如 我 们 将 在 
11. 5 节 中 看 到 的 那样 ， 当 一 个 Web 服务 器 代表 客户 端 运行 CGI 程序 时 ， 它 就 执行 一 种 相 
似 类 型 的 重 定 向 。 那 么 MO 重 定向 是 如 何 工 作 的 呢 ? 一 种 方式 是 使 用 dup2 函数 。 


#include <unistd.h> 


int dup2(int oldfd, int newfd) ; 


返回 : 车 成 功 则 为 非 负 的 描述 罕 ， 若 出 错 则 为 一 1。 





dup2 函数 复制 描述 符 表 表 项 oldfd 到 描述 符 表 表 项 newfd， 覆 盖 描 述 符 表 表 项 new- 
fd 以 前 的 内 容 。 如 果 newfd 已 经 打开 了 ，dup2 会 在 复制 oldfad 之 前 关闭 newfd。 

假设 在 调用 dup2 (4,1) 之 前 ， 我 们 的 状态 如 图 10-12 所 示 ， 其 中 描述 符 1( 标 准 输 出 ) 
对 应 于 文件 A( 比 如 一 个 终端 )， 描 述 符 4 对 应 于 文件 B( 比 如 一 个 磁盘 文件 )。A 和 B 的 引 
用 计数 都 等 于 1。 图 10-15 显示 了 调用 dup2 (4,1) 之 后 的 情况 。 两 个 描述 符 现在 都 指向 文 
件 B; 文件 A 已 经 被 关闭 了 了， 并 且 它 的 文件 表 和 v-node 表 表 项 也 已 经 被 删除 了 ; 文件 B 
的 引用 计数 已 经 增加 了 。 从 此 以 后 ， 任 何 写 到 标准 输出 的 数据 都 被 重 定 向 到 文件 B。 


描述 符 表 打开 文件 表 v-node 表 
( 每 个 进程 一 张 表 ) (所 有 进程 共享 ) ( 所 有 进程 共享 ) 

XNA 
td0 | 下 “文件 访问 ， 
3 :文件 位 置 | 文件 大 小 | 
fd 3 refcnt=0; 文件 类 型 ， 
fd 4 Ee : I 

文件 B 










本 
文件 位 置 





时 
图 10-15 ”通过 调用 dup2 (4,1) 重 定向 标准 输出 之 后 的 内 核 数据 结构 。 初 始 状 态 如 图 10-12 所 示 
EE3 左边 和 右边 的 hoinkies 


为 了 避免 和 其 他 括号 类 型 操作 符 比如 “]” 和 “[” 相 混淆 ， 我 们 总 是 将 shell 的 
“>>” 操 作 符 称 为 “ 右 hoinky”， 而 将 “< ”操作 符 称 为 “ 左 hoinky”。 


证 本 练习 题 10.4 如何 用 dup2 将 标准 输入 重 定向 到 描述 符 5? 
区 练习 题 10.5 假设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 组 成 ， 那 
么 下 列 程序 的 输出 是 什么 ? 


1 #include "csapp.h" 
2 
3 int main() 
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4 + 

5 nt Fai Fad2 

6 char 六; 

7 

8 fdi = Open("foobar.txt", 0_RDONLY, 0); 
9 fd2 = Open("foobar.txt", 0_RDONLY, 0); 
10 Read(fd2, &c, 1); 

11 Dup2(fd2, fd1); 

12 Read(fdi, &c, 1); 

13 printf(e = We\n*s ec); 

14 exit(0); 

15 } 


10. 10 标准 MO 


C 语言 定义 了 一 组 高 级 输入 输出 函数 ， 称 为 标准 IO 库 ， 为 程序 员 提 供 了 Unix IO 
的 较 高 级 别 的 替代 。 这 个 库 (1ibc) 提 供 了 打开 和 关闭 文件 的 函数 (fopen 和 fclose)、 读 
和 写字 节 的 函数 (fread 和 fwrite)、 读 和 写字 符 串 的 函数 (fgets 和 fputs)， 以 及 复杂 
的 格式 化 的 IO 图 数 (scanf 和 printf)。 

标准 I/O 库 将 一 个 打开 的 文件 模型 化 为 一 个 流 。 对 于 程序 员 而 言 ， 一 个 流 就 是 一 个 指 
向 FILE 类 型 的 结构 的 指针 。 每 个 ANSI C 程序 开始 时 都 有 三 个 打开 的 流 stdin、stdout 
和 stderr， 分别 对 应 于 标准 输入 、 标 准 输 出 和 标准 错误 : 


#include <stdio.h> 

extern FILE *stdin,; /* Standard input (descriptor 0) */ 

extern FILE *stdout; /* Standard output (descriptor 1) */ 
extern FILE *stderr; /* Standard error (descriptor 2) */ 


类 型 为 FILE 的 流 是 对 文件 描述 符 和 流 缓 冲 区 的 抽象 。 流 缓冲 区 的 目的 和 RIO 读 缓 冲 
区 的 一 样 : 就 是 使 开销 较 高 的 Linux I/O 系统 调用 的 数量 尽 可 能 得 小 。 例 如 ， 假 设 我 们 有 
一 个 程序 ， 它 反复 调用 标准 1/O 的 getc 函数 ， 每 次 调用 返回 文件 的 下 一 个 字符 。 当 第 一 
次 调用 getc 时 ， 库 通过 调用 一 次 read 函数 来 填充 流 缓 冲 区 ， 然 后 将 缓冲 区 中 的 第 一 个 
字 节 返回 给 应 用 程序 。 只 要 缓冲 区 中 还 有 未 读 的 字 节 ， 接 下 来 对 getc 的 调用 就 能 直接 从 
流 缓 冲 区 得 到 服务 。 


10. 11 综合 : 我 该 使 用 哪些 [MO 函数 ? 
图 10-16 总 结 了 我 们 在 这 一 章 里 讨论 过 的 各 种 IMO 包 。 


fopen fdopen 
fread fwrite 
fscanf fprintf 





sscanf sprintf | 
fgets fputs 9 
fflush fseek 
fclose 


C 应 用 程序 
rio_ readn 
rio writen 
rio readinitb 





标准 IO 函数 


. 
. 
a 
aa 
. 
. 
. 
A 
" 
4 
再 


rio readlineb 





open read rio readnb 
write lseek | Unix IO 函数 
stat Close (通过 系统 调用 来 访问 ) 


图 10-16 ”Unix IO、 标 准 I/O 和 RIO 之 间 的 关系 
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Unix I/O 模型 是 在 操作 系统 内 核 中 实现 的 。 应 用 程序 可 以 通过 诸如 open、close、 
lseek、read、write 和 stat 这样 的 图 数 来 访问 Unix IO。 较 高 级 别 的 RIO 和 标准 I/O 
曙 数 都 是 基于 (使 用 )Unix 1/O 函数 来 实现 的 。RIO 函数 是 专 为 本 书 开 发 的 read 和 write 
的 健壮 的 包装 函数 。 它 们 自动 处 理 不 足 值 ， 并 且 为 读 文本 行 提供 一 种 高 效 的 带 缓 冲 的 方 
法 。 标准 I/O 天 数 提供 了 Unix 1/O 函数 的 一 个 更 加 完整 的 带 缓 冲 的 蔡 代 品 ， 包 括 格式 化 
的 1/O 例 程 ， 如 printf 和 scanf。 

那么 ， 在 你 的 程序 中 该 使 用 这 些 郴 数 中 的 哪 一 个 呢 ? 下 面 是 一 些 基 本 的 指导 原则 : 

e G1: 只 要 有 可 能 就 使 用 标准 IO。 对 磁盘 和 终端 设备 IO 来 说 ， 标 准 1/O 函数 是 首 
选 方法 。 大 多 数 C 程序 员 在 其 整个 职业 生涯 中 只 使 用 标准 /O， 从 不 受 较 低级 的 
Unix 1/O 函数 的 困扰 (可 能 stat 除外 ， 因 为 在 标准 W/O 库 中 没有 与 它 对 应 的 郴 
数 )。 只 要 可 能 ， 我 们 建议 你 也 这 样 做 。 

e G2: 不 要 使 用 scanf 或 rio _ readlineb 来 读 二 进 制 文件 。 像 scanf 或 rio read- 
lineb 这 样 的 水 数 是 专门 设计 来 读 取 文本 文件 的 。 学 生 通 常会 犯 的 一 个 错误 就 是 用 
这 些 果 数 来 读 取 二 进 制 文件 ， 这 就 使 得 他 们 的 程序 出 现 了 诡异 莫 测 的 失败 。 比 如 ， 
二 进 制 文件 可 能 散布 着 很 多 0xa 字 节 ， 而 这 些 字 节 又 与 终止 文本 行 无 关 。 

e G3: 对 网 络 套 接 字 的 1/O 使 用 RIO 孔 数 。 不 辛 的 是 ， 当 我 们 试 着 将 标准 1/O 用 于 
网 络 的 输入 输出 时 ， 出 现 了 一 些 令 人 讨厌 的 问题 。 如 同 我 们 将 在 11.4 节 所 见 ， 
Linux 对 网 络 的 抽象 是 一 种 称 为 套 接 字 的 文件 类 型 。 就 像 所 有 的 Linux 文件 一 样 ， 
套 接 字 由 文件 描述 符 来 引用 ， 在 这 种 情况 下 称 为 套 接 字 描 述 符 。 应 用 程序 进程 通过 
读 写 套 接 字 描述 符 来 与 运行 在 其 他 计算 机 的 进程 实现 通信 。 

标准 I/O 流 ， 从 某 种 意义 上 而 言 是 全 双 工 的 ， 因 为 程序 能 够 在 同一 个 流 上 执行 输入 和 
输出 。 然 而 ， 对 流 的 限制 和 对 套 接 字 的 限制 ， 有 时 候 会 互相 冲突 ， 而 又 极 少 有 文档 描述 这 
些 现象 : 

@ 限制 一 : 跟 在 输出 函数 之 后 的 输入 函数 。 如 果 中 间 没 有 捅 人 对 fflush、fseek、 
fsetpos 或 者 rewind 的 调用 , 一 个 输入 函数 不 能 跟随 在 一 个 输出 也 数 之 后 。 
fflush 函数 清空 与 流 相关 的 缓冲 区 。 后 三 个 函数 使 用 Unix I/O lseek 函数 来 重 置 
当前 的 文件 位 置 。 

@ 限制 二 : 跟 在 输入 函数 之 后 的 输出 函数 。 如 果 中 间 没 有 插入 对 fseek、fsetpos 或 
者 rewind 的 调用 ， 一 个 输出 函数 不 能 跟随 在 一 个 输入 函数 之 后 ， 除 非 该 输入 函数 
遇 到 了 一 个 文件 结束 。 

这 些 限 制 给 网 络 应 用 带 来 了 一 个 问题 ， 因 为 对 套 接 字 使 用 lseek 图 数 是 非法 的 。 对 流 
LI/O 的 第 一 个 限制 能 够 通过 采用 在 每 个 输入 操作 前 刷新 缓冲 区 这 样 的 规则 来 满足 。 然 而 ， 
要 满足 第 二 个 限制 的 唯一 办 法 是 ， 对 同一 个 打开 的 套 接 字 描 述 符 打开 两 个 流 ， 一 个 用 来 
该 ， 一 个 用 来 写 : 

FILE *fpin, *fpout; 


fpin = fdopen(sockfd, "r"); 
fpout = fdopen(sockfd, "w"); 


但 是 这 种 方法 也 有 问题 ， 因 为 它 要 求 应 用 程序 在 两 个 流 上 都 要 调用 fclose， 这 样 才 
能 释放 与 每 个 流 相关 联 的 内 存 资源 ， 避 免 内 存 泄漏 : 


fclose(fpin); 
fclose(fpout); 
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这 些 操 作 中 的 每 一 个 都 试图 关闭 同一 个 底层 的 套 接 字 描 述 符 ， 所 以 第 二 个 close 操作 
就 会 失败 。 对 顺序 的 程序 来 说 ， 这 并 不 是 问题 ,但 是 在 一 个 线程 化 的 程序 中 关闭 一 个 已 经 
关闭 了 的 描述 符 是 会 导致 灾难 的 ( 见 12.7.4 市 )。 

因此 ， 我们 建议 你 在 网 络 套 接 字 上 不 要 使 用 标准 1/O 函数 来 进行 输入 和 输出 ， 而 要 使 
用 健壮 的 RIO 函数 。 如 果 你 需要 格式 化 的 输出 ， 使 用 sprintf 函数 在 内 存 中 格式 化 一 个 
字符 串 ， 然 后 用 rio_writen 把 它 发 送 到 套 接口 。 如 果 你 需要 格式 化 输入 ， 使 用 rio_ 
readlineb 来 读 一 个 完整 的 文本 行 ， 然 后 用 sscanf 从 文本 行 提 取 不 同 的 字段 。 


10. 12 ”小 结 


Linux 提供 了 少量 的 基于 Unix 1/O 模型 的 系统 级 函数 ， 它 们 允许 应 用 程序 打开 、 关 闭 、 读 和 写 文件 ， 
提取 文件 的 元 数据 ， 以 及 执行 /O 重 定 向 。Linux 的 读 和 写 操作 会 出 现 不 足 值 ， 应 用 程序 必须 能 正确 地 
预计 和 处 理 这 种 情况 。 应 用 程序 不 应 直接 调用 Unix 1/O 函数 ， 而 应 该 使 用 RIO 包 ，RIO 包 通 过 反复 执行 
读 写 操作 ， 直 到 传送 完 所 有 的 请 求 数据 ， 自 动 处 理 不 足 值 。 

Linux 内 核 使 用 三 个 相关 的 数据 结构 来 表示 打开 的 文件 。 描 述 符 表 中 的 表 项 指向 打开 文件 表 中 的 表 
项 ， 而 打开 文件 表 中 的 表 项 又 指向 v-node 表 中 的 表 项 。 每 个 进程 都 有 它 自 己 单独 的 描述 符 表 ， 而 所 有 的 
进程 共享 同一 个 打开 文件 表 和 v-node 表 。 理 解 这 些 结构 的 一 般 组 成 就 能 使 我 们 清楚 地 理解 文件 共享 和 
I/O 重 定向 。 

标准 I/O 库 是 基于 Unix 1/O 实现 的 ， 并 提供 了 一 组 强大 的 高 级 W/O 例 程 。 对 于 大 多 数 应 用 程序 而 
言 ， 标准 W/O 更 简单 ， 是 优 于 Unix 1/O 的 选择 。 然 而 ， 因 为 对 标准 IO 和 网 络 文件 的 一 些 相互 不 兼容 的 
限制 ，Unix 1/O 比 之 标准 MO 更 该 适用 于 网 络 应 用 程序 。 


参考 文献 说 明 

Kerrisk 撰写 了 关于 Unix I/O 和 Linux 文件 系统 的 综述 [62]。Stevens 编写 了 Unix 1/O 的 标准 参考 
文献 [111]。Kernighan 和 Ritchie 对 于 标准 I/O 函数 给 出 了 清晰 而 完整 的 讨论 L61j。 
家 性 作业 


“10.6 下 面 程序 的 输出 是 什么 ? 
#include "csapp.h" 


1 
2 
3 int main() 
4 + 
5 int fdi.. fa2' 
6 
7 fdl = Open("foo.txt", 0O_RDONLY, 0); 
8 fd2 = 0pen("bar.txt"，0_RDONLY，0) ; 
9 Close(fd2) ; 
10 fd2 = OQpen("baz.txt", 0_RDONLY, 0); 
11 printf("fd2 = %d\n", fd2); 
12 exit(0); 
13 } 
* 10.7 修改 图 10-5 中 所 示 的 cpfile 程序 ， 使 得 它 用 RIO 也 数 从 标准 输入 复制 到 标准 输出 ， 一 次 MAX- 
BUF 个 字 节 。 


** 10.8 编写 图 10-10 中 的 statcheck 程序 的 一 个 版 本 ,叫做 fstatcheck， 它 从 命令 行 上 取得 一 个 描述 符 


数字 而 不 是 文件 名 。 


10.9 考虑 下 面 对 作 业 题 10. 8 中 的 fstatcheck 程序 的 调用 : 


linux> fstatcheck 3 < foo.txt 


你 可 能 会 预想 这 个 对 fstatcheck 的 调用 将 提取 和 显示 文件 foo.txt 的 元 数据 。 然 而 ， 当 我 们 在 
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系统 上 运行 它 时 ， 它 将 失败 ， 返回 “ 坏 的 文件 描述 符 ”。 根 据 这 种 情况 ， 填 写 出 shell 在 fork 和 
execve 调用 之 间 必 须 执行 的 伪 代 码 : 
if (Fork() == 0) { /* child */ 

/* What code is the shell executing right here? */ 


Execve("fstatcheck", argv, envp); 
} 


**+ 10. 10 ”修改 图 10-5 中 的 cpfile 程序 ， 使 得 它 有 一 个 可 选 的 命令 行 参数 infile。 如 果 给 定 了 infile， 


那么 复制 infile 到 标准 输出 ,否则 像 以 前 那样 复制 标准 输入 到 标准 输出 。 一 个 要 求 是 对 于 两 种 
情况 ， 你 的 解答 都 必须 使 用 原来 的 复制 循环 (第 9 一 11 行 )。 只 人 允许 你 插 人 代码 ， 而 不 允许 更 改 任 
何 已 经 存在 的 代码 。 


练习 题 答 案 


10. 1 


10. 2 


TQ: 3 


10. 4 


本 


Unix 进程 生命 周期 开始 时 ， 打 开 的 描述 符 赋 给 了 stdin( 描 述 符 0)、stdout( 描 述 符 1) 和 stderr 
(描述 符 2) 。cpen 函数 总 是 返回 最 低 的 未 打开 的 描述 符 ， 所 以 第 一 次 调用 open 会 返回 描述 符 3。 
调用 close 电 数 会 释放 描述 符 3。 最 后 对 open 的 调用 会 返回 描述 符 3， 因 此 程序 的 输出 是 “fd2=3”。 
描述 符 f91 和 fd2 都 有 各 自 的 打开 文件 表 表 项 ， 所 以 每 个 描述 符 对 于 foobar.txt 都 有 它 自 己 的 
文件 位 置 。 因 此 ， 从 fq2 的 读 操 作 会 读 取 foobar .txt 的 第 一 个 字 节 ， 并 输出 

C = 于 

而 不 是 像 你 开始 可 能 想 的 

回想 一 下 ， 子 进程 会 继承 父 进程 的 描述 符 表 ， 以 及 所 有 进程 共享 的 同一 个 打开 文件 表 。 因 此 ， 描 
述 符 fd 在 父子 进程 中 都 指向 同一 个 打开 文件 表 表 项 。 当 子 进程 读 取 文件 的 第 一 个 字 节 时 ， 文件 位 
置 加 1。 因此， 父 进 程 会 读 取 第 二 个 字 节 ， 而 输出 就 是 

重 定向 标准 输入 (描述 符 0) 到 描述 符 5， 我 们 将 调用 aup2 (5, 0) 或 者 等 价 的 dup2 (5, STDIN_FILE- 
NO) 。 

第 一 眼 你 可 能 会 想 输出 应 该 是 

C = 上 于 

但 是 因为 我 们 将 fdl 重 定 向 到 了 fd2， 输 出 实际 上 是 
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网 络 编程 


网 络 应 用 随处 可 见 。 任 何 时 候 浏 览 Web、 发 送 email 信息 或 是 玩 在 线 游戏 ， 你 就 正在 
使 用 网 络 应 用 程序 。 有 趣 的 是 ， 所 有 的 网 络 应 用 都 是 基于 相同 的 基本 编程 模型 ， 有 着 相似 
的 整体 逻辑 结构 ， 并 且 依 赖 相同 的 编程 接口 。 

网 络 应 用 依赖 于 很 多 在 系统 研究 中 已 经 学 习 过 的 概念 。 例 如 ， 进 程 、 信 号 、 字 市 顺 
序 、 内 存 上 映射 以 及 动态 内 存 分 配 ， 都 扮演 着 重要 的 角色 。 还 有 一 些 新 概念 要 掌握 。 我 们 需 
要 理解 基本 的 客户 端 -服务 器 编程 模型 ， 以 及 如 何 编 写 使 用 因特网 提供 的 服务 的 客户 端 - 服 
务 器 程序 。 最 后 ， 我 们 将 把 所 有 这 些 概 念 结合 起 来 ， 开 发 一 个 虽 小 但 功能 齐全 的 Web 服 
务 器 ， 能 够 为 真实 的 Web 浏览 器 提供 静态 和 动态 的 文本 和 图 形 内 容 。 


11.1 客户 端 -服务 闫 编程 模型 


每 个 网 络 应 用 都 是 基于 客户 端 - 服 务 器 模型 的 。 采 用 这 个 模型 ， 一 个 应 用 是 由 一 个 服 
务 器 进程 和 一 个 或 者 多 个 客户 端 进程 组 成 。 服 务 器 管理 某 种 资源 ， 并 且 通 过 操作 这 种 资源 
来 为 它 的 客户 端 提 供 某 种 服务 。 例 如 ， 一 个 Web 服务 器 管理 着 一 组 磁盘 文件 ， 它 会 代表 
客户 端 进行 检索 和 执行 。 一 个 FTP 服务 器 管理 着 一 组 磁盘 文件 ， 它 会 为 客户 端 进行 存储 
和 检索 。 相 似 地 ， 一 个 电子 邮件 服务 器 管理 着 一 些 文件 ， 它 为 客户 端 进行 读 和 更 新 。 

客户 端 -服务 器 模型 中 的 基本 操作 是 事务 (transaction)( 见 图 11-1) 。 一 个 客户 疹 - 服 务 
器 事务 由 以 下 四 步 组 成 。 

1) 当 一 个 客户 端 需 要 服务 时 ， 它 向 服务 器 发 送 一 个 请 求 ， 发 起 一 个 事务 。 例 如 ， 当 
Web 浏览 器 需要 一 个 文件 时 ， 它 就 发 送 一 个 请 求 给 Web 服务 硕 。 

2) 服务 器 收 到 请 求 后 ， 解 释 它 ， 并 以 适当 的 方式 操作 它 的 资源 。 例 如 ， 当 Web 服务 
器 收 到 浏览 器 发 出 的 请 求 后 ， 它 就 读 一 个 磁盘 文件 。 

3) 服务 器 给 客户 端 发 送 一 个 响应 ， 并 等 待 下 一 个 请 求 。 例 如 ，Web 服务 鼎 将 文件 发 
送 回 客户 并 。 

4) 客户 端 收 到 响应 并 处 理 它 。 例 如 ， 当 Web 浏览 器 收 到 来 自 服务 器 的 一 页 后 ， 就 在 
屏幕 上 显示 此 页 。 


1. 客户 端 发 送 请 求 
4. 客户 端 客户 端 人 服务 器 一 
处 更 响应 加 全 es 和 服务 如 L_ 交 源 
3. 服务 器 发 送 响应 处 理 请 求 
图 11-1 一 个 客户 端 -服务 器 事务 
认识 到 客户 端 和 服务 器 是 进程 ， 而 不 是 常 提 到 的 机 器 或 者 主机 ， 这 是 很 重要 的 。 一 全 
主机 可 以 同时 运行 许多 不 同 的 客户 端 和 服务 器 ， 而 且 一 个 客户 端 和 服务 句 的 事务 可 以 在 同 


一 台 或 是 不 同 的 主机 上 。 无 论 客户 端 和 服务 器 是 怎样 映射 到 主机 上 的 ， 客 户 端 -服务 占 模 
型 都 是 相同 的 。 
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下 3 客户 端 -服务 器 事务 与 数据 库 事务 


客户 端 -服务 器 事务 不 是 数据 库 事务 ， 没 有 数据 库 事 务 的 任何 特性 ， 例 如 原子 性 。 
在 我 们 的 上 下 文中 ， 事 务 仅仅 是 客户 端 和 服务 器 执行 的 一 系列 步骤 。 


11.2 网 络 

客户 端 和 服务 器 通常 运行 在 不 同 的 主机 上 ， 并 且 通 过 计算 机 网 络 的 硬件 和 软件 资源 来 
通信 。 网 络 是 很 复杂 的 系统 ， 在 这 里 我 们 只 想 了 解 一 点 皮毛 。 我 们 的 目标 是 从 程序 员 的 角 
度 给 你 一 个 切实 可 行 的 思维 模型 。 

对 主机 而 言 ， 网 络 只 是 又 一 种 W/O 设备， 是 数据 源 和 数据 接收 方 ， 如 图 11-2 所 示 。 

一 个 插 到 1/O 总 线 扩展 槽 的 适配器 提供 了 到 网 络 的 物理 接口 。 从 网 络 上 接收 到 的 数据 
从 适配器 经 过 I/O 和 内 存 总 线 复制 到 内 存 ， 通 常 是 通过 DMA 传送 。 相 似 地 ， 数 据 也 能 从 
内 存 复 制 到 网 络 。 


CPU 芯片 


Register file 
= 


yy 












1/O 总 线 中 


图 形 适 配器 牙 全 控制 吕 -= 
鼠标 ”键盘 监视 器 


图 11-2 一 个 网 络 主 机 的 硬件 组 成 


物理 上 而 言 ， 网 络 是 一 个 按照 地 理 远 近 组 成 的 层次 系统 。 最 低层 是 LAN(Local Area 
Network， 局 域 网 ) ， 在 一 个 建筑 或 者 校园 范围 内 。 迄 今 为 止 ， 最 流行 的 局 域 网 技术 是 以 
太 网 (Ethernet)， 它 是 由 施乐 公司 帕 洛 阿尔 托 研究 中 心 (Xerox PARC) 在 20 世纪 70 年 代 
中 期 提出 的 。 以 太 网 技术 被 证 明 是 适应 力 极 强 的 ， 从 3Mb/s 演变 到 10Gb/s。 

一 个 以 太 网 段 (Ethernet segment) 包 括 一 些 电 缆 ( 通 常 是 双 绞 线 ) 和 一 个 叫做 集线器 的 
小 盒子 ， 如 图 11-3 所 示 。 以 太 网 段 通常 跨越 一 些小 的 区 域 ， 例 如 某 建 筑 物 的 一 个 房间 
或 者 一 个 楼 层 。 每 根 电 缆 都 有 相同 的 最 大 位 市 宽 ， 通 党 是 100Mby/s 或 者 1Gb/s。 一 端 连 
接 到 主机 的 适配器 ， 而 另 一 端 则 连接 到 集线器 的 一 
端口 上 上。 集线器 不 加 分 辩 地 将 从 一 个 端口 上 收 到 的 每 
个 位 复制 到 其 他 所 有 的 端口 上 。 因 此， 每 台 主 机 都 能 
看 到 每 个 位 。 

每 个 以 太 网 适配器 都 有 一 个 全 球 唯 一 的 48 位 地 址 ， 
它 存储 在 这 个 适配器 的 非 易 失 性 存储 器 上 。 一 台 主 机 可 图 11-3” ”以太 网 段 
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以 发 送 一 段位 ( 称 为 帧 (frame)) 到 这 个 网 段 内 的 其 他 任何 主机 。 每 个 帧 包括 一 些 固定 数量 
的 头 部 (header) 位 ， 用 来 标识 此 帧 的 源 和 目的 地 址 以 及 此 帧 的 长 度 ， 此 后 紧 随 的 就 是 数据 
位 的 有 效 载 荷 (payload)。 每 个 主机 适配器 都 能 看 到 这 个 帧 ， 但 是 只 有 目的 主机 实际 读 
取 它 。 

使 用 一 些 电缆 和 叫做 网 桥 (bridge) 的 小 盒子 ， 多 个 以 太 网 段 可 以 连接 成 较 大 的 局 域 网 ， 
称 为 桥接 以 太 网 (bridged Ethernet)， 如 图 11-4 所 示 。 桥 接 以 太 网 能 够 跨越 整个 建筑 物 或 
者 校区 。 在 一 个 桥接 以 太 网 里 ， 一 些 电缆 连 接 网 桥 与 网 桥 ， 而 另外 一 些 连 接 网 桥 和 集 线 
侨 。 这 些 电 缆 的 带宽 可 以 是 不 同 的 。 在 我 们 的 示例 中 ， 网 桥 与 网 桥 之 间 的 电缆 有 1Gbys 的 
带宽 ， 而 四 根 网 桥 和 集 线 融 之 间 电 缆 的 带宽 却 是 100Mb/s。 


集线器 100Mb/s | 桥 100Mb/s 集 线 吴 | 


1Gb/s 


图 11-4 ”桥接 以 太 网 


网 桥 比 集线器 更 充分 地 利用 了 电缆 囊 宽 。 利 用 一 种 聪明 的 分 配 算法 ， 它 们 随 痢 时 间 目 
动 学习 哪 个 主机 可 以 通过 哪个 端口 可 达 ， 然 后 只 在 有 必要 时 ， 有 选择 地 将 帧 从 一 个 闪 口 复 
制 到 另 一 个 端口 。 例 如 ， 如 果 主 机 A 发 送 一 个 帧 到 同 网 段 上 的 主机 B， 当 该 帧 到 达 网 桥 X 
的 输入 端口 时 ，X 就 将 丢弃 此 帧 ， 因 而 节省 了 其 他 网 段 上 的 带宽 。 然 而 ， 如 果 主 机 A 发 送 

一 个 帧 到 一 个 不 同 网 段 上 的 主机 C， 那 么 网 桥 X 只 会 把 此 帧 复制 到 和 网 桥 Y 相连 的 端口 
上 ， 网 桥 Y 会 只 把 此 帧 复制 到 与 主机 C 的 网 段 连接 的 端口 。 

为 了 简化 局 域 网 的 表示 ， 我 们 将 把 集线器 和 网 桥 以 及 连接 它们 的 电缆 画 成 一 根 水 平 
线 ， 如 图 11-5 所 示 。 

在 层次 的 更 高 级 别 中 ， 多 个 不 兼容 的 局 域 网 可 以 通过 叫做 路 由 器 (router) 的 特殊 计算 
机 连接 起 来 ， 组 成 一 个 internet( 互 联网 络 )。 每 台中 由 器 对 于 它 所 连接 到 的 每 个 网 络 都 有 
一 个 适配器 (端口 )。 路 由 器 也 能 连接 高 速 点 到 点 电话 连接 ， 这 是 称 为 WAN (Wide-Area 
Network， 广 域 网 ) 的 网 络 示 例 ， 之 所 以 这 么 叫 是 因为 它 
们 覆盖 的 地 理 范 围 比 局 域 网 的 大 。 一 般 而 言 ， 路 由 器 可 以 
用 来 由 各 种 局 域 网 和 广域网 构建 互联 网 络 。 例 如 ， 图 11-6 
展示 了 一 个 互联 网 络 的 示例 ，3 台 路 由 器 连 接 了 一 对 局 域 EECSIESINISSSUWEID 
网 和 一 对 广域网 。 图 11-5 ”局域网 的 概念 视图 
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1 A Cv Ke 0 sh 
LAN 
| 路 由 器 samaaamamea| 路 由 器 | 
WAN WAN | 
图 11-6 一 个 小 型 的 互联 网 络 。 三 台 路 由 器 连接 起 两 个 局 域 网 和 两 个 广域网 
旁 注 | Internet 和 internet 


我 们 总 是 用 小 写字 母 的 internet 描述 一 般 概 念 ， 而 用 大 写字 母 的 Internet 来 描述 一 
种 具体 的 实现 ， 也 就 是 所 谓 的 全 球 IP 因特网 。 


互联 网 络 至 关 重 要 的 特性 是 ， 它 能 由 采用 完全 不 同和 不 兼容 技术 的 各 种 局 域 网 和 广 域 
网 组 成 。 每 台 主 机 和 其 他 每 台 主 机 都 是 物理 相连 的 ， 但 是 如 何 能 够 让 某 台 源 主机 跨 过 所 有 
这 些 不 兼容 的 网 络 发 送 数据 位 到 另 一 台 目 的 主机 呢 ? 

解决 办 法 是 一 层 运行 在 每 台 主 机 和 路 由 需 上 的 协议 软件 ， 它 消除 了 不 同 网 络 之 间 的 差 
异 。 这 个 软件 实现 一 种 协议 ， 这 种 协议 控制 主机 和 路 由 此 如 何 协 同 工 作 来 实现 数据 传输 。 
这 种 协议 必须 提供 两 种 基本 能 力 : 

9 命名 机 制 。 不 同 的 局 域 网 技术 有 不 同和 不 兼容 的 方式 来 为 主机 分 配 地 址 。 互 联网 络 

协议 通过 定义 一 种 一 致 的 主机 地 址 格式 消除 了 这 些 差异 。 每 台 主 机 会 被 分 配 至 少 一 
个 这 种 互联 网 络 地 址 (internet address)， 这 个 地 址 唯一 地 标识 了 这 人 台 主 机 。 

9 传送 机 制 。 在 电缆 上 编码 位 和 将 这 些 位 封装 成 帧 方面 ， 不 同 的 联网 技术 有 不 同 的 和 
不 兼容 的 方式 。 互 联网 络 协议 通过 定义 一 种 把 数据 位 捆扎 成 不 连续 的 片 ( 称 为 包 ) 的 
统一 方式 ， 从 而 消除 了 这 些 差异 。 一 个 包 是 由 包头 和 有 效 载荷 组 成 的 ， 其 中 包头 包 
括 包 的 大 小 以 及 源 主 机 和 目的 主机 的 地 址 ， 有 效 载 荷包 括 从 源 主 机 发 出 的 数据 位 。 

图 11-7 展示 了 主机 和 路 由 顺 如 何 使 用 互联 网 络 协 议 在 不 兼容 的 局 域 网 间 传 送 数 据 的 
一 个 示例 。 这 个 互联 网 络 示例 由 两 个 局 域 网 通过 一 台 路 由 器 连接 而 成 。 一 个 客户 端 运 行 在 
主机 A 上 ,， 主机 A 与 LAN1 相连 ， 它 发 送 一 串 数 据 字 节 到 运行 在 主机 了 B 上 的 服务 器 端 ， 
主机 B 则 连接 在 LAN2 上 。 这 个 过 程 有 8 个 基本 步骤 : 

1) 运行 在 主机 A 上 的 客户 端 进 行 一 个 系统 调用 ， 从 客户 端的 虚拟 地 址 空间 复制 数据 
到 内 核 缓冲 区 中 。 

2) 主机 A 上 的 协议 软件 通过 在 数据 前 附加 互联 网 络 包 头 和 LANI1 帧 头 ， 创 建 了 一 个 
LAN1 的 帧 。 互 联网 络 包 头 寻 址 到 互联 网 络 主机 B。LANI1 帧 头 寻 址 到 路 由 器 。 然 后 它 传 
送 此 帧 到 适配器 。 注 意 ，LANIL 帧 的 有 效 载荷 是 一 个 互联 网 络 包 ， 而 互联 网 络 包 的 有 效 载 
向 是 实际 的 用 户 数 据 。 这 种 封装 是 基本 的 网 络 互 联 方法 之 一 。 

3) LAN1 适配器 复制 该 帧 到 网 络 上 。 

4) 当 此 帧 到 达 路 由 器 时 ， 路 由 器 的 LAN1 适配器 从 电缆 上 读 取 它 ， 并 把 它 传送 到 协 
议 软件 。 

5) 路 由 大 从 互联 网 络 包 头 中 提取 出 目的 互联 网 络 地 址 ， 并 用 它 作 为 路 由 表 的 索引 ， 
确定 回 哪里 转发 这 个 包 ， 在 本 例 中 是 LAN2。 路 由 器 剥落 旧 的 LANI1 的 帧 头 ， 加 上 寻 址 到 
主机 B 的 新 的 LAN2 帧 头 ， 并 把 得 到 的 帧 传送 到 适配器 。 

6) 路 由 带 的 LAN2 适 配 需 复制 该 帧 到 网 络 上 。 
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7) 当 此 帧 到 达 主 机 孔 时 ， 它 的 适配器 从 电缆 上 读 到 此 帧 ， 并 将 它 传 送 到 协议 软件 。 
8) 最 后 ， 主 机 也 上 的 协议 软件 剥落 包头 和 帧 头 。 当 服务 器 进行 一 个 读 取 这 些 数据 的 
系统 调用 时 ， 协 议 软 件 最 终 将 得 到 的 数据 复制 到 服务 器 的 虚拟 地 址 空间 。 
主机 A 主机 B 


客户 端 服务 端 


(1) | 数据 


互联 网 络 包 协议 软件 协议 软件 
' 1 
LAN2 
适 配 兢 


(8) [数据 ] 


(2) | 数据 [PH |FH1 


Ns dh 
LANI1 帧 LAN1 
适 配 锋 


(7) | 数据 | PH |FH2 





l 
_ 数据 | PH |FH2| 
Pa De oe a ee aod ee ee 


a 


' /人 
(4)| 数据 |PH [FH1| | 数据 |PH |FH2| (5) 


协议 软件 


图 11-7 在 互联 网 络 上 ， 数 据 是 如 何 从 一 台 主 机 传送 到 另 一 台 主 机 的 (PH: 互联 网 络 包 头 ; 
FH1，LANI 的 帧 头 ， FH2: LAN2 的 帧 头 ) 


当然 ， 在 这 里 我 们 掩盖 了 许多 很 难 的 问题 。 如 果 不 同 的 网 络 有 不 同 帧 大 小 的 最 大 值 ， 该 怎 
么 办 呢 ? 路 由 器 如 何 知道 该 往 哪 里 转发 帧 呢 ? 当 网 络 拓扑 变化 时 ， 如 何 通知 路 由 露 ? 如 果 一 个 
包 丢 失 了 又 会 如 何 呢 ? 虽然 如 此 ， 我 们 的 示例 抓 住 了 互联 网 络 思 想 的 精 角 ， 封 疙 是 关键 。 


11.3 ”全球 IP 因特网 


全 球 IP 因特网 是 最 著名 和 最 成 功 的 互联 网 络 实现 。 从 1969 年 起 ， 它 就 以 这 样 或 那样 
的 形式 存在 了 。 虽 然 因 特 网 的 内 部 体系 结构 复杂 而 且 不 断 变化 ， 但 是 自从 20 世纪 80 年 代 
早期 以 来 ， 客 户 并 -服务 右 应 用 的 组 织 就 一 直 保 持 着 相当 的 稳定 。 图 11-8 展示 了 一 个 因 特 
网 客户 端 -服务 器 应 用 程序 的 基本 人 硬件 和 软件 组 织 。 


互联 网 络 客户 端 主 机 互联 网 络 服务 器 主机 


套 接 字 接 口 


(向 用 


硬件 接口 《中 断 ) 





图 11-8 一 个 因特网 应 用 程序 的 硬件 和 软件 组 织 
每 台 因 特 网 主机 都 运行 实现 TCP/IP 协议 (Transmission Control Protocol/Internet 
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Protocol， 传 输 控制 协议 /互联 网 络 协议 ) 的 软件 ， 几 乎 每 个 现代 计算 机 系统 都 支持 这 个 协 
议 。 因 特 网 的 客户 端 和 服务 器 混合 使 用 套 接 字 接 口 函 数 和 Unix I/O 函数 来 进行 通信 (我 们 
将 在 11.4 节 中 介绍 套 接 字 接口 )。 通 常 将 套 接 字 图 数 实现 为 系统 调用 ， 这 些 系统 调用 会 陷 
和 人 内核， 并 调用 各 种 内 核 模式 的 TCP/IP 函数 。 

TCP/IP 实际 是 一 个 协议 族 ， 其 中 每 一 个 都 提供 不 同 的 功能 。 例 如 ，IP 协议 提供 基本 
的 命名 方法 和 递送 机 制 ， 这 种 递送 机 制 能 够 从 一 台 因 特 网 主机 往 其 他 主机 发 送 包 ， 也 叫做 
数据 报 (datagram)。IP 机 制 从 某 种 意义 上 而 言 是 不 可 靠 的 ， 因 为 ， 如 果 数 据 报 在 网 络 中 丢 
失 或 者 重复 ， 它 并 不 会 试图 恢复 。UDP(CUnreliable Datagram Protocol， 不 可 靠 数 据 报 协 
议 ) 稍 微 扩 展 了 IP 协议 ， 这 样 一 来 ， 包 可 以 在 进程 间 而 不 是 在 主机 间 传 送 。TCP 是 一 个 构 
建 在 IP 之 上 的 复杂 协议 ， 提 供 了 进程 间 可 靠 的 全 双 工 (双向 的 ) 连 接 。 为 了 简化 讨论 ， 我 
们 将 TCP/IP 看 做 是 一 个 单独 的 整体 协议 。 我 们 将 不 讨论 它 的 内 部 工作 ， 只 讨论 TCP 和 
IP 为 应 用 程序 提供 的 某 些 基 本 功能 。 我 们 将 不 讨论 UDP。 

从 程序 员 的 角度 ， 我 们 可 以 把 因特网 看 做 一 个 世界 范围 的 主机 集合 ， 满 足以 下 特性 : 

e 主机 集合 被 映射 为 一 组 32 位 的 IP 地 址 。 

se 这 组 IP 地 址 被 映射 为 一 组 称 为 因特网 域名 (Internet domain name) 的 标识 符 。 

e 因特网 主机 上 的 进程 能 够 通过 连接 (connection) 和 任何 其 他 因特网 主机 上 的 进程 通信 。 

接 下 来 三 节 将 更 详细 地 讨论 这 些 基 本 的 因特网 概念 。 


ER Pv Pv 

最 初 的 因特网 协议 ,使 用 32 位 地 址 ， 称 为 因特网 协议 版 本 4(Internet Protocol 
Version 4，IPv4)。1996 年 ， 因 特 网 工程 任务 组 织 (Internet Engineering Task Force， 
IETF) 提 出 了 一 个 新 版 本 的 IP， 称 为 因特网 协议 版 本 6(IPv6)， 它 使 用 的 是 128 位 地 址 ， 
意 在 替代 IPv4。 但 是 直到 2015 年 ， 大约 20 年 后 ， 因 特 网 流量 的 绝 大 部 分 还 是 由 IPv4 
网 络 承 载 的 。 例 如 ， 只 有 4% 的 访问 Google 服务 的 用 户 使 用 IPv6 [42]。 

因为 IPv6 的 使 用 率 较 低 ， 本 书 不 会 讨论 IJPv6 的 细节 ， 而 只 是 集中 注意 力 于 IPv4 
背后 的 概念 。 当 我 们 谈论 因特网 时 ， 我 们 指 的 是 基于 IPv4 的 因特网 。 但 是 ， 本 章 后 面 
介绍 的 书写 客户 端 和 服务 器 的 技术 是 基于 现代 接口 的 ， 与 任何 特殊 的 协议 无 关 。 


11.3.1 IP 她 址 


一 个 IP 地 址 就 是 一 个 32 位 无 符号 整数 。 网 络 程序 将 IP 地 址 存放 在 如 图 11-9 所 示 的 
IP 地 址 结构 中 。 


code/netp/netpfragments.c 
/* IP address structure */ 


struct in_addr { 
uint32_t s_addr; /* Address in network byte order (big-endian) */ 
上 上; 
code/netp/netpfragments.c 
图 11-9 IP 地址 结构 


把 一 个 标量 地 址 存放 在 结构 中 ， 是 套 接 字 接 口 早 期 实现 的 不 幸 产 物 。 为 IP 地 址 定义 一 
个 标量 类 型 应 该 更 有 意义 ， 但 是 现在 更 改 已 经 太 迟 了 ， 因 为 已 经 有 大 量 应 用 是 基于 此 的 。 

因为 因特网 主机 可 以 有 不 同 的 主机 字 节 顺序 ，TCP/ 了 为 任意 整数 数据 项 定义 了 统一 的 
网 络 字 节 顺序 (network byte order) (大 端 字 节 顺序 )， 例 如 IP 地址 ， 它 放 在 包头 中 跨 过 网 络 被 
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携带 。 在 地 址 结构 中 存放 的 地 址 总 是 以 (大 端 法 ) 网 络 字 节 顺 序 存放 的 ， 即 使 主机 字 节 顺序 
(host byte order) 是 小 问 法 。Unix 提供 了 下 面 这 样 的 图 数 在 网 络 和 主机 字 节 顺序 间 实 现 转换 。 


#include <arpa/inet.h> 


uint32_t htonl (uint32_t hostlong); 
uint1i6._t htons(uint16 七 hostshort); 
返回 : 按照 网 络 字 节 顺 序 的 值 。 
uint32_t ntohl(uint32_t netlong); 
uint16_t ntohs(unit16_t netshort); 
返回 : 按照 主机 字 节 顺序 的 值 。 





hotnl 函数 将 32 位 整数 由 主机 字 节 顺序 转换 为 网 络 字 节 顺 序 。ntohl 函数 将 32 位 整 
数 从 网 络 字 节 顺 序 转 换 为 主机 字 节 。htons 和 ntohs 困 数 为 16 位 无 符号 整数 执行 相应 的 
转换 。 注 意 ， 没 有 对 应 的 处 理 64 位 值 的 函数 。 

IP 地 址 通常 是 以 一 种 称 为 点 分 十 进 制 表 示 法 来 表示 的 ， 这 里 ， 每 个 字 节 由 它 的 十 进 
制 值 表示 ， 并 且 用 甸 点 和 其 他 字 市 间 分 开 。 例 如，128.2.194.242 就 是 地 址 0x8002c2f2 
的 点 分 十 进 制 表 示 。 在 Linux 系统 上 ， 你 能 够 使 用 HOSTNAME 命令 来 确定 你 自己 主机 
的 点 分 十 进 制 地 址 : 


linux> hostname -i 
128 .2,.210.175 


应 用 程序 使 用 inet pton 和 inet ntop 图 数 来 实现 卫 地 址 和 点 分 十 进 制 串 之 间 的 转换 。 


#include <arpa/inet.h> 


int inet_pton(AF_INET, const char *src, void *dst); 
返回 ; 车 成 功 则 为 ]， 若 src 为 非法 点 分 十 进 制 地 址 则 为 0， 车 出 错 则 为 一 1。 


const char *inet_ntop(AF_INET, const void *src, char *dst, 
socklen_t Size) ; 
返回 : 若 成 功 则 指向 点 分 和 十进制 字符 串 的 指针 ， 若 出 错 则 为 NULL。 





在 这 些 函 数 名 中 ，“n” 代 表 网 络 ，“p” 代 表 表 示 。 它 们 可 以 处 理 32 位 IPv4 地 址 (AF_IN- 
ET) (就 像 这 里 展示 的 那样 )， 或 者 128 位 IPv6 地 址 (AF INET6) (这 部 分 我 们 不 讲 )。 

inet pton 图 数 将 一 个 点 分 十 进 制 串 (src) 转 换 为 一 个 二 进 制 的 网 络 字 节 顺序 的 IP 地 
址 (dst)。 如 果 src 没有 指 疝 一 个 合法 的 点 分 十 进 制 字 符 串 ， 那 么 该 函数 就 返回 0。 任 何 
其 他 错误 会 返回 一 1， 并 设置 errno。 相 似 地 ，inet ntop 孔 数 将 一 个 二 进 制 的 网 络 字 节 
顺序 的 IP 地 址 (src) 转 换 为 它 所 对 应 的 点 分 十 进 制 表 示 ， 并 把 得 到 的 以 null 结尾 的 字符 串 
的 最 多 size 个 字 节 复制 到 dst。 
富强 练习 题 11. 1 完成 下 表 : 


十 六 进 制 地 址 点 分 十 进 制 地 址 









vv vv 
Oxf | 
0000017 | 
| 
7 
| 2061691462 | 





达到 练习 题 11.2 编写 程序 hex2dd.c， 将 它 的 十 六 和 进 制 参数 转换 为 点 分 十 进 制 串 并 打印 
出 结果 。 例 如 


linux> ./hex2dd Ox8002c2f2 
128.2.194.242 


EM 练习 题 11.3 编写 程序 dd2hex.c， 将 它 的 点 分 十 进 制 参 数 转 换 为 十 六 进 制 数 并 打印 
出 结果 。 例 如 


linux> ./dd2hex 128.2.194.242 
Ox8002c2f2 


11. 3.2 因特网 域名 


因特网 客户 端 和 服务 器 互相 通信 时 使 用 的 是 IP 地 址 。 然 而， 对 于 人 们 而 言 ， 大 整数 
是 很 难 记 住 的 ， 所 以 因特网 也 定义 了 一 组 更 加 人 性 化 的 域名 (domain name)， 以 及 一 种 将 
域名 映射 到 IP 地 址 的 机 制 。 域 名 是 一 串 用 句点 分 隅 的 单词 (字母 、 数 字 和 破 折 号 )， 例 如 
whaleshark.ics.cs.cmu.edu,。 

域名 集合 形成 了 一 个 层次 结构 ， 每 个 域名 编码 了 它 在 这 个 层次 中 的 位 置 。 通 过 一 个 示 
例 你 将 很 容易 理解 这 点 。 图 11-10 展示 了 域名 层次 结构 的 一 部 分 。 层 次 结构 可 以 表示 为 一 
棵 树 。 树 的 节点 表示 域名 ， 反 回 到 根 的 路 径 形成 了 域名 。 子 树 称 为 子 域 (sSubdomain) 。 层 
次 结构 中 的 第 一 层 是 一 个 未 命名 的 根 节 点 。 下 一 层 是 一 组 一 级 域名 (first-level domain 
name)， 由 非 营 利 组 织 ICANN (Internet Corporation for Assigned Names and Numbers， 
因特网 分 配 名 字数 字 协 会 ) 定 义 。 篆 见 的 第 一 层 域名 包括 com、edu、gov、org 和 net。 


未 命名 的 根 
mil edu gOV com 第 一 层 域名 
mit cmu berkeley amazon 第 二 层 域 名 
Cs ece | 三 层 域名 
a ee 176.32.98.166 
1CS pdl 
whaleshark WwWW 
282210 175 3160 
图 11-10 因特网 域名 层次 结构 的 一 部 分 


下 一 层 是 二 级 (second-level) 域 名 ， 例 如 cmu. edu， 这 些 域名 是 由 ICANN 的 各 个 授权 
代理 按照 先 到 先 服 务 的 基础 分 配 的 。 一 旦 一 个 组 织 得 到 了 一 个 二 级 域名 ， 那 么 它 就 可 以 在 
这 个 子 域 中 创建 任何 新 的 域名 了 ， 例 如 cs.cmu.edu。 

因特网 定义 了 域名 集合 和 IP 地 址 集合 之 间 的 映射 。 直 到 1988 年 ， 这 个 映射 都 是 通过 
一 个 叫做 HOSTS .TXT 的 文本 文件 来 手工 维护 的 。 从 那 以 后 ， 这 个 映射 是 通过 分 布 世界 范 
围 内 的 数据 库 ( 称 为 DNSCDomain Name System， 域 名 系统 )) 来 维护 的 。 从 概念 上 而 言 ， 
DNS 数据 库 由 上 百 万 的 主机 条 目 结构 (host entry structure) 组 成 ， 其 中 每 条 定义 了 一 组 域 
名 和 一 组 IP 地 址 之 间 的 映射 。 从 数学 意义 上 讲 ， 可 以 认为 每 条 主机 条 目 就 是 一 个 域名 和 
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IP 地 址 的 等 价 类 。 我 们 可 以 用 Linux 的 NSLOOKUP 程序 来 探究 DNS 映射 的 一 些 属性 ， 
这 个 程序 能 展示 与 某 个 卫 地 址 对 应 的 域名 .有 

每 人 台 因 特 网 主机 都 有 本 地 定义 的 域名 localhost， 这 个 域名 总 是 上 映射 为 回 送 地 址 
(loopback address)127.0.0.1: 

linux> nslookup localhost 

Address: 127.0.0.1 

localhost 名 字 为 引用 运行 在 同一 台 机 硕 上 的 客户 端 和 服务 器 提供 了 一 种 便利 和 可 移植 
的 方式 ， 这 对 调试 相当 有 用 。 我 们 可 以 使 用 HOSTNAME 来 确定 本 地 主机 的 实际 域名 : 


linux> hostname 
whaleshark,.ics.cs.cmu.edu 


在 最 简单 的 情况 中 ， 一 个 域名 和 一 个 IP 地 址 之 间 是 一 一 映射 : 


linux> nslookup whaleshark.ics.cs.cmu.edu 
Address: 128.2.210.175 


然而 ， 在 某 些 情况 下 ， 多 个 域名 可 以 映射 为 同一 个 IP 地 址 : 


linux> nslookup cs.mit.edu 
Address: 18.62.1.6 


linux> nslookup eecs.mit .edu 
Address: 18.62.1.6 


在 最 通常 的 情况 下 ， 多 个 域名 可 以 映射 到 同一 组 的 多 个 IP 地 址 : 
linux> nslookup www.twitter.com 
Address: 199.16.156.6 
Address: 199.16.156.70 
Address: 199.16.156.102 
Address: 199.16.156.230 


linux> nsilookup twitter.com 
Address: 199.16.156.102 
Address: 199.16.156.230 
Address: 199.16.156.6 
Address: 199.16.156.70 


最 后 ， 我 们 注意 到 茶 些 合法 的 域名 没有 映射 到 任何 IP 地 址 : 


linux> nslookup edu 

* 水 水 Can't find edu: No answer 

linux> nslookup ics.cs.cmu.edu 

冰冰 水 Can't find ics,.cs.cmu.edu: No answer 


下 了 有 和 多少 因 特 网 主机 ? 

因特网 软件 协会 (Internet Software Consortium， www. isc. org) 自从 1987 年 以 后 ， 每 年 进 
行 两 次 因特网 域名 调查 。 这 个 调查 通过 计算 已 经 分 配给 一 个 域名 的 卫 地 址 的 数量 来 估算 因 特 
网 主机 的 数量 ， 展 示 了 一 种 令 人 吃惊 的 趋势 。 自 从 1987 年 以 来 ， 当 时 一 共 大 约 有 20 000 台 因 特 
网 主机 ， 主 机 的 数量 已 经 在 指数 性 增长 。 到 2015 年 ， 已 经 有 大 约 1 000 000 000 台 因特网 主机 了 。 


牟 “” 我 们 重新 调整 了 NSLOOKUP 的 输出 以 提高 可 读 性 。 
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11. 3.3 因特网 连接 


因特网 客户 端 和 服务 器 通过 在 连接 上 发 送 和 接收 字 节 流 来 通信 。 从 连接 一 对 进程 的 意 
义 上 而 言 ， 连 接 是 点 对 点 的 。 从 数据 可 以 同时 双 问 流动 的 角度 来 说 ， 它 是 全 双 工 的 。 并 且 
从 (除了 一 些 如 粗心 的 耕 铀 机 操作 员 切 断 了 电缆 引起 灾难 性 的 失败 以 外 ) 由 源 进程 发 出 的 字 
节 流 最 终 被 目的 进程 以 它 发 出 的 顺序 收 到 它 的 角度 来 说 ， 它 也 是 可 靠 的 。 

一 个 套 接 字 是 连接 的 一 个 端点 。 每 个 套 接 字 都 有 相应 的 套 接 字 地 址 ， 是 由 一 个 因特网 
地 址 和 一 个 16 位 的 整数 端口 组 成 的 ， 用 “地 址 : 端口 ”来 表示 。 

当 客户 端 发 起 一 个 连接 请 求 时 ， 客 户 端 套 接 字 地 址 中 的 端口 是 由 内 核 自 动 分 配 的 ， 称 
为 临时 端口 (ephemeral port)。 然 而 ,服务器 套 接 字 地 址 中 的 端口 通常 是 菏 个 知名 端口 ， 
是 和 这 个 服务 相对 应 的 。 例 如 ，Web 服务 器 通常 使 用 端口 80， 而 电子 邮件 服务 器 使 用 端 
口 25。 每 个 具有 知名 端口 的 服务 都 有 一 个 对 应 的 知名 的 服务 名 。 例 如 ，Web 服务 的 知名 
名 字 是 http，email 的 知名 名 字 是 smtp。 文 件 /etc/services 包含 一 张 这 侣 机 需 提 供 的 
知名 名 字 和 知名 端口 之 间 的 映射 。 

一 个 连接 是 由 它 两 端的 套 接 字 地 址 唯一 确定 的 。 这 对 套 接 字 地 址 叫做 套 接 字 对 (socket 
pair)， 由 下 列 元 组 来 表示 : 


(cliaddr:cliport, servaddr:servport) 


其 中 cliaddr 是 客户 端的 IP 地 址 ，cliport 是 客户 端的 端口 ，servaddr 是 服务 器 的 IP 
地 址 ， 而 servport 是 服务 器 的 端口 。 例 如 ， 图 11-11 展示 了 一 个 Web 客户 端 和 一 个 Web 
服务 需 之 间 的 连接 。 


客户 端 套 接 字 地 址 服务 器 套 接 字 地 址 
128.2.194.242:51213 208.216.181.15:80 


ee | | 





a “4 服务 器 ! 
连接 套 接 字 对 (3 : 
ae (128.2.194.242:$1213，208.216.181.1S:80 ) 1 一 | 
诸 疡 者 主 机 于 二 服务 器 主机 地 址 
128.2.194.242 208.216.181.15 
图 11-11 因特网 连接 分 析 


在 这 个 示例 中 ，Web 客户 端的 套 接 字 地 址 是 
128.2.194.242:51213 


其 中 端口 号 51213 是 内 核 分 配 的 临时 端口 号 。Web 服务 器 的 套 接 字 地 址 是 
208.216.181.15:80 


其 中 端口 号 80 是 和 Web 服务 相关 联 的 知名 端口 号 。 给 定 这 些 客户 端 和 服务 器 套 接 字 地 
址 ， 客 户 端 和 服务 器 之 间 的 连接 就 由 下 列 套 接 字 对 唯一 确定 了 : 
(128.2.194.242:51213，208.216.181.15:80) 


旁 注 | 因特网 的 起 源 
因特网 是 政府 、 学 校 和 工业 界 合 作 的 最 成 功 的 示例 之 一 。 它 成 功 的 因素 很 多 ， 但 是 
我 们 认为 有 两 点 尤其 重要 : 美国 政府 30 年 持续 不 变 的 投资 ， 以 及 充满 激情 的 研究 人 员 


加 ”这些 软 件 端口 与 网 络 中 交换 机 和 路 由 器 的 硬件 端口 没有 关系 。 
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对 麻 省 理工 学 院 的 Dave Clarke 提出 的 “粗略 一 致 和 能 用 的 代码 ”的 投入 。 

因特网 的 种 子 是 在 1957 年 播 下 的 ， 其 时 正 值 冷战 的 高 峰 ， 苏 联 发 射 Sputnik， 第 一 颗 人 
造 地 球 卫星 ， 震 惊 了 世界 。 作 为 响应 ， 美 国政 府 创 建 了 高 级 研究 计划 署 (ARPA)， 其 任务 就 
是 重建 美国 在 科学 与 技术 上 的 领导 地 位 。1967 年 ，ARPA 的 Lawrence Roberts 提出 了 一 个 计 
划 ， 建 立 一 个 叫做 ARPANET 的 新 网 络 。 第 一 个 ARPANET 节点 是 在 1969 年 建立 并 运行 的 。 
到 1971 和 年， 已 有 13 个 ARPANET 节点 ， 而 且 email 作为 第 一 个 重要 的 网 络 应 用 涌现 出 来 。 

1972 年 ，Robert Kahn 概括 了 网 络 互 联 的 一 般 原 则 ; 一 组 互相 连接 的 网 络 ， 通 过 叫 
做 “路 由 器 ”的 黑 盒子 按照 “以 尽力 传送 作为 基础 ”在 互相 独立 处 理 的 网 络 间 实现 通 
信 。1974 年 ，Kahn 和 Vinton Cerf 发 表 了 TCP/IP 协议 的 第 一 本 详细 资料 ， 到 1982 年 
它 成 为 了 ARPANET 的 标准 网 络 互联 协议 。1983 年 1 月 1 日 ARPANET 的 每 个 节点 
都 切换 到 TCP/IP， 标 志 着 全 球 IP 因特网 的 诞生 。 

1985 年 ，Paul Mockapetris 发 明了 DNS， 有 1000 多 台 因 特 网 主机 。1986 年 ， 国 家 
科学 基金 会 (NSF) 用 56KB/s 的 电话 线 连接 了 13 个 节点 ， 构 建 了 NSFNET 的 骨干 网 。 
其 后 在 1988 年 升级 到 1. 5MB/s Tl 的 连接 速率 ，1991 年 为 45MB/s T3 的 连接 速率 。 到 
1988 年 ， 有 超过 50 000 台 主 机 。1989 年 ， 原 始 的 ARPANET 正式 退休 了 。1995 年 ， 
已 经 有 几乎 10 000 000 台 因 特 网 主机 了 ，NSF 取消 了 NSFNET， 并 且 用 基于 由 公众 网 
络 接 入 点 连接 的 私有 商业 骨干 网 的 现代 因特网 架构 取代 了 它 。 


11. 4 ” 套 接 字 接 口 


套 接 字 接 口 (socket interface) 是 一 组 函数 ， 它们 和 Unix I/O 孙 数 结合 起 来 ， 用 以 创建 
网 络 应 用 。 大 多 数 现代 系统 上 都 实现 套 接 字 接口 ， 包 括 所 有 的 Unix 变种 、Windows 和 
Macintosh 系统 。 图 11-12 给 出 了 一 个 典型 的 客户 端 - 服 务 器 事务 的 上 下 文中 的 套 接 字 接口 
概述 。 当 讨论 各 个 函数 时 ， 你 可 以 使 用 这 张 图 来 作为 回 导 图 。 







客户 端 服务 器 
open_ listenfqd 
连接 请 求 
一 
i 寺村 天 自 下 一 个 
客户 端的 连接 请 求 
EOF 
pe 


close 


图 11-12 基于 套 接 字 接口 的 网 络 应 用 概述 
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EE 套 接 字 接口 的 起 源 

套 接 字 接 口 是 加 州 大 学 伯克利 分 校 的 研究 人 员 在 20 世纪 80 年 代 早期 提出 的 。 因 为 
这 个 原因 ， 它 也 经 常 被 叫做 伯克利 套 接 字 。 伯 克利 的 研究 者 使 得 套 接 字 接 口 适用 于 任何 
底层 的 协议 。 第 一 个 实现 的 就 是 针对 TCP/IP 协议 的 ， 他 们 把 它 包 括 在 Unix 4.2BSD 的 
内 核 里 ， 并 且 分 发 给 许多 学 校 和 实验 室 。 这 在 因特网 的 历史 上 是 一 个 重大 事件 。 几 平一 
夜 之 间 ， 成 千 上 万 的 人 们 接触 到 了 TCP/IP 和 它 的 源 代 码 。 它 引起 了 巨大 的 砷 动 ， 并 激 
发 了 新 的 网 络 和 网 络 互 联 研究 的 浪潮 。 


11. 4.1 套 接 字 地 址 结构 


从 Linux 内 核 的 角度 来 看 ， 一 个 套 接 字 就 是 通信 的 一 个 端点 。 从 Linux 程序 的 角度 来 
看 ， 套 接 字 就 是 一 个 有 相应 描述 符 的 打开 文件 。 

因特网 的 套 接 字 地 址 存放 在 如 图 11-13 所 示 的 类 型 为 sockaddr in 的 16 字 节 结 构 中 。 
对 于 因特网 应 用 ，sin family 成员 是 AF_INET，sin port 成 员 是 一 个 16 位 的 端口 号 ， 
而 sin addr 成 员 就 是 一 个 32 位 的 IP 地 址 。IP 地址 和 端口 号 总 是 以 网 络 字 节 顺序 (大 端 
法 ) 存 放 的 。 


code/netp/netpfragments.c 
/* IP socket address structure */ 
struct sockaddr_in {+ 


uint16_t sin_family; /* Protocol family (always AF_INET) */ 
uint16_t sin_port; /* Port number in network byte order */ 
struct in_addr Sin_addr ; /* IP address in network byte order */ 


unsigned char sin_zero[8]; /* Pad to sizeof(struct sockaddr) */ 


}; 


/* Generic socket address structure (for connect, bind, and accept) */ 
struct sockaddr { 


uint1i6_t sa_family; /* Protocol family */ 
char sa_data[14]:;: /* Address data */ 
es 
code/netp/netpfragments.c 
图 11-13 ” 套 接 字 地 址 结构 


EE3 _in 后 缀 意味 什么 ? 


_in 后 组 是 互联 网 络 (internet) 的 缩写 ， 而 不 是 输入 (input) 的 缩写 。 


connect、bind 和 accept 图 数 要 求 一 个 指向 与 协议 相关 的 套 接 字 地 址 结构 的 指针 。 
套 接 字 接口 的 设计 者 面临 的 问题 是 ， 如 何 定义 这 些 函 数 ， 使 之 能 接受 各 种 类 型 的 套 接 字 地 
址 结构 。 今 天 我 们 可 以 使 用 通用 的 voidx 指针 ， 但 是 那 时 在 C 中 并 不 存在 这 种 类 型 的 指 
针 。 解 决 办 法 是 定义 套 接 字 函数 要 求 一 个 指 回 通用 sockaddr 结构 (图 11-13) 的 指针 ， 然 
后 要 求 应 用 程序 将 与 协议 特定 的 结构 的 指针 强制 转换 成 这 个 通用 结构 。 为 了 简化 代码 示 
例 ， 我 们 跟随 Steven 的 指导 ， 和 定义 下 面 的 类 型 

typedef struct sockaddr SA ; 


然后 无 论 何 时 需要 将 sockaddr in 结构 强制 转换 成 通用 sockaddr 结构 时 ， 我 们 都 使 用 
这 个 类 型 。 
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11. 4.2 socket 函数 
客户 问 和 服务 帮 使 用 socket 函数 来 创建 一 个 套 接 字 描 述 符 (socket descriptor) 。 


#include <sys/types.h> 
#include <sys/socket.h> 


int socket(int domain, int type, int Protocol) ; 
返回 : 若 成 功 则 为 非 负 描述 符 ， 若 出 错 则 为 一 1。 





如 果 想 要 使 套 接 字 成 为 连接 的 一 个 端点 ， 就 用 如 下 硬 编 码 的 参数 来 调用 socket 函数 : 
clientfd = Socket(AF_INET，SOCK_STREAM，0) ; 


其 中 ，AF_INET 表明 我 们 正在 使 用 32 位 IP 地址， 而 SOCK_STREAM 表示 这 个 套 接 字 
是 连接 的 一 个 端点 。 不 过 最 好 的 方法 是 用 getaddrinfo 图 数 (11.4.7 节 ) 来 自动 生成 这 些 
参数 ， 这 样 代 码 就 与 协议 无 关 了 。 我 们 会 在 11.4.8 节 中 向 你 展示 如 何 配 合 socket 函数 来 
使 用 getaddrinfo。 

socket 返回 的 clientfd 描述 符 仅 是 部 分 打开 的 ， 还 不 能 用 于 读 写 。 如 何 完成 打开 
套 接 字 的 工作 ， 取 决 于 我 们 是 客户 端 还 是 服务 器 。 下 一 节 描 述 当 我 们 是 客户 端 时 如 何 完 成 
打开 套 接 字 的 工作 。 


11. 4.3 connect 函数 
客户 端 通 过 调用 connect 函数 来 建立 和 服务 需 的 连接 。 


#include <SyS/Socket .hy> 


int connect(int clientfd, const struct sockaddr *addr, 


socklen_t addrlen); 





返回 : 车 成 功 则 为 0， 若 出 错 则 为 一 1。 


connect 函数 试图 与 套 接 字 地 址 为 adqr 的 服务 器 建立 一 个 因特网 连接 ， 其 中 addrlen 
是 sizeof (sockaddr in) 。connect 函数 会 阻塞 ， 一 直到 连接 成 功 建立 或 是 发 生 错误 。 如 果 
成 功 ，clientfd 描述 符 现在 就 准备 好 可 以 读 写 了 ， 并 且 得 到 的 连接 是 由 套 接 字 对 


(x:y, addr.sin_addr:addr .sin_port) 


刻画 的 ， 其 中 x 表示 客户 端的 IP 地 址 ， 而 y 表示 临时 端口 ， 它 唯一 地 确定 了 客户 问 主 机 
上 的 客户 端 进 程 。 对 于 socket， 最 好 的 方法 是 用 getaddrinfo 来 为 connect 提供 参数 
CW 4], 区 5 

11. 4.4 bind 函数 


剩 下 的 套 接 字 函数 





bind、1isten 和 accept， 服 务 需 用 它们 来 和 客户 端 建 立 连 接 。 


#include <sys/socket.h> 


int bind(int sockfd, const struct sockaddr *addr, 
socklen_t addrlen).; 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 
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bind 肾 数 告诉 内 核 将 addr 中 的 服务 器 套 接 字 地 址 和 套 接 字 描 述 符 sockfd 联系 起 
来 。 参 数 addrlen 就 是 sizeof (sockaddr in)。 对 于 socket 和 connect， 最 好 的 方法 
是 用 getaddrinfo 来 为 pind 提供 参数 ( 见 11. 4. 8 节 )。 


11. 4.5 listen 函数 


客户 病 是 发 起 连接 请 求 的 主动 实体 。 服 务 器 是 等 竺 来 自 客户 端的 连接 请 求 的 被 动 实 
体 。 默 认 情 况 下 ， 内 核 会 认为 socket 困 数 创建 的 描述 符 对 应 于 主动 套 接 字 (active sock- 
et) ， 它 存在 于 一 个 连接 的 客户 端 。 服 务 需 调用 listen 图 数 告诉 内 核 ， 擅 述 符 是 被 服务 器 
而 不 是 客户 端 使 用 的 。 


#include <sys/socket.h> 


int listen(int sockfd, int backlog); 





返回 : 车 成 功 则 为 0， 若 出 错 则 为 一 1。 


listen 图 数 将 sockfd 从 一 个 主动 套 接 字 转化 为 一 个 监听 套 接 字 (listening socket)， 
该 套 接 字 可 以 接受 来 和 目 客 户 端的 连接 请 求 。backlog 参数 暗示 了 了 内核 在 开始 拒绝 连接 请 求 
之 前 ， 队 列 中 要 排队 的 未 完成 的 连接 请 求 的 数量 。backlog 参数 的 确切 含义 要 求 对 TCP/ 
IP 协议 的 理解 ， 这 超出 了 我 们 讨论 的 范围 。 通 和 常 我 们 会 把 它 设置 为 一 个 较 大 的 值 ， 比 
如 1024。 


11. 4.6 accept 函数 
服务 器 通过 调用 accept 函数 来 等 符 来 目 客 户 端的 连接 请 求 。 


#include <sys/socket.h> 


int accept(int listenfd, struct sockaddr *addr, int *addrlen); 


返回 : 若 成 功 则 为 非 负 连接 描述 符 ， 若 出 错 则 为 一 1。 





accept 图 数 等 竺 来自 客户 端的 连接 请 求 到 达 侦 听 描 述 符 1istenfd， 然 后 在 addr 中 
填写 客户 端的 套 接 字 地 址 ， 并 返回 一 个 已 连接 描述 符 (connected descriptor) ， 这 个 描述 符 
可 被 用 来 利用 Unix 1/O 图 数 与 客户 端 通信 。 

监听 描述 符 和 已 连接 描述 符 之 间 的 区 别 使 很 多 人 感到 迷惑 。 监 听 描 述 符 是 作为 客户 端 
连接 请 求 的 一 个 端点 。 它 通常 被 创建 一 次 ， 并 存在 于 服务 器 的 整个 生命 周期 。 已 连接 描述 
符 是 客户 端 和 服务 器 之 间 已 经 建立 起 来 了 的 连接 的 一 个 端点 。 服 务 器 每 次 接受 连接 请 求 时 
都 会 创建 一 次 ， 它 只 存在 于 服务 需 为 一 个 客户 端 服 务 的 过 程 中 。 

11-14 描绘 了 监听 描述 符 和 已 连接 描述 符 的 角色 。 在 第 一 步 中 ， 服 务 器 调用 
accept， 等 待 连接 请 求 到 达 监 听 描 述 符 ， 具 体 地 我 们 设 定 为 描述 符 3。 回 忆 一 下 ， 描 述 符 
0 一 2 是 预 留 给 了 标准 文件 的 。 

在 第 二 步 中 ， 客 户 端 调用 connect 图 数 ， 发 送 一 个 连接 请 求 到 listenfd。 第 三 步 ， 
accept 图 数 打 开 了 一 个 新 的 已 连接 描述 符 connfa( 我 们 假设 是 描述 符 4),， 在 clientfd 
和 connfd 之 间 建 立 连接 ， 并 且 随 后 返回 connfd 给 应 用 程序 。 客 户 端 也 从 connect 返回 ， 
在 这 一 点 以 后 ， 客 户 端 和 服务 器 就 可 以 分 别 通过 读 和 写 clientfd 和 connfd 来 回 传送 数 
据 了 。 
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listenfd(3) 
4 1. 服务 器 阻塞 在 accept， 等 待 监 听 
客户 端 服务 器 描述 符 1istenfd 上 的 连接 请 求 。 
clientfqd 


ver 二 人 2. 客 户 端 通过 调用 和 阻塞 在 connect， 

客户 端 服务 器 创建 连接 请 求 。 

clientfdqd 

ee 3, 服务 器 从 accept 返回 connfd。 客 户 端 
客户 端 服务 器 从 connect 返回 。 现 在 在 clientfd 和 
connfd 之 间 已 经 建立 起 了 连接 。 
clientfda connfd(4) 
图 11-14 监听 描述 符 和 已 连接 描述 符 的 角色 


EE3 为 何 要 有 监 昕 描述 符 和 已 连接 找 述 符 之 间 的 区 别 ? 

你 可 能 很 想 知 道 为 什么 套 接 字 接 口 要 区 别 监听 描述 符 和 已 连接 描述 符 。 秆 一 看 ， 这 
像 是 不 必要 的 复杂 化 。 然 而 ， 区 分 这 两 者 被 证 明 是 很 有 用 的 ， 因 为 它 使 得 我 们 可 以 建立 
并 发 服务 器 ， 它 能 够 同时 处 理 许多 客户 端 连 接 。 例 如 ， 每 次 一 个 连接 请 求 到 达 监 听 描 述 
符 时 ， 我 们 可 以 派生 (fork) 一 个 新 的 进程 ， 它 通过 已 连接 描述 符 与 客户 端 通信 。 在 第 12 
章 中 将 介绍 更 多 关于 并 发 服务 器 的 内 容 。 


11. 4.7 主机 和 服务 的 转换 


Linux 提供 了 一 些 强大 的 函数 ( 称 为 getaddrinfo 和 getnameinfo) 实 现 二 进 制 套 接 字 地 
址 结构 和 主机 名 、 主 机 地 址 、 服 务 名 和 端口 号 的 字符 串 表 示 之 间 的 相互 转化 。 当 和 套 接 字 接 
口 一 起 使 用 时 ， 这 些 函 数 能 使 我 们 编写 独立 于 任何 特定 版 本 的 IP 协议 的 网 络 程序 。 

1. getaddrinfo 函数 

getaddrinfo 浮 数 将 主机 名 、 主 机 地 址 、 服 务 名 和 端口 号 的 字符 串 表示 转化 成 套 接 
字 地 址 结构 。 它 是 已 弃 用 的 gethostbyname 和 getservbyname 函数 的 新 的 蔡 代 品 。 和 以 
前 的 那些 函数 不 同 ， 这 个 函数 是 可 重 人 的 ( 见 12. 7.2 市 )， 适 用 于 任何 协议 。 


#include <sys/types.h> 
#include <sys/socket.h> 
#include <netdb.h> 


int getaddrinfo(const char *host, const char *service, 
const struct addrinfo *hints, 
struct addrinfo **result); 


返回 : 如 果 成 功 则 为 0， 如 果 错 误 则 为 非 零 的 错误 代码 。 


void freeaddrinfo(struct addrinfo *result).; 
返回 ; 无 。 


const char *gai_strerror(int errcode) ; 
返回 : 错误 消息 。 


给 定 host 和 service( 套 接 字 地 址 的 两 个 组 成 部 分 )，getaddrinfo 返回 result， 
result 一 个 指向 addrinfo 结构 的 链表 ， 其 中 每 个 结构 指 问 一 个 对 应 于 host 和 service 
的 套 接 字 地 址 结构 (图 11-15) 。 
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addrinfo 结 构 
i ai canonname 套 接 字 地 址 结构 


ai addr 


ai next 


NULL 
ai addr 


ai next 


NULL 


al addr 


NULL 
图 11-15 getaddrinfo 返回 的 数据 结构 


在 客户 端 调用 了 getaddrinfo 之 后 ， 会 侦 历 这 个 列表 ， 依 次 尝试 每 个 套 接 字 地 址 ， 直 到 调 
用 socket 和 connect 成 功 ， 建 立 起 连接 。 类 似 地 ， 服 务 器 会 尝试 遍历 列表 中 的 每 个 套 接 字 地 
址 ， 直 到 调用 socket 和 bind 成 功 ， 摘 述 符 会 被 绑 定 到 一 个 合法 的 套 接 字 地 址 。 为 了 避免 内 存 
汇 漏 ， 应 用 程序 必须 在 最 后 调用 freeaddrinfo， 释 放 该 链表 。 如 果 getaddrinfo 返回 非 零 的 
错误 代码 ， 应 用 程序 可 以 调用 gai streeror， 将 该 代码 转换 成 消息 字符 串 。 
getaddrinfo 的 host 参数 可 以 是 域名 ,也 可 以 是 数字 地 址 (如 点 分 十 进 制 下 地 址 )。 
service 参数 可 以 是 服务 名 (如 http)， 也 可 以 是 十 进 制 端口 号 。 如 果 不 想 把 主机 名 转换 成 地 
址 ， 可 以 把 host 设置 为 NULL。 对 service 来 说 也 是 一 样 。 但 是 必须 指定 两 者 中 至 少 一 个 。 
可 选 的 参数 hints 是 一 个 addrinfo 结构 ( 见 图 11-16)， 它 提供 对 getaddrinfo 返回 
的 套 接 字 地 址 列表 的 更 好 的 控制 。 如 果 要 传递 hints 参数 ， 只 能 设置 下 列 字 段 : ai fam- 
ily、ai socktype、ai protocol 和 ai flags 字段 。 其 他 字段 必须 设置 为 0( 或 
NULL)。 实 际 中 ， 我 们 用 memset 将 整个 结构 清 零 ， 然 后 有 选择 地 设置 一 些 字 段 : 
e getaddrinfo 默认 可 以 返回 IPv4 和 IPv6 套 接 字 地 址 。ai family 设置 为 AF_IN- 
ET 会 将 列表 限制 为 IPv4 地 址 ; 设置 为 AF _ INET6 则 限制 为 IPv6 地 址 。 
e@ 对 于 host 关联 的 每 个 地 址 ，getaddrinfo 函数 默认 最 多 返回 三 个 addrinfo 结构 ， 
每 个 的 ai socktype 字段 不 同 : 一 个 是 连接 ， 一 个 是 数据 报 ( 本 书 未 讲述 )， 一 个 
是 原始 套 接 字 ( 本 书 未 讲述 )。ai socktype 设置 为 SOCK_STREAM 将 列表 限制 为 
对 每 个 地 址 最 多 一 个 addrinfo 结构 ， 该 结构 的 套 接 字 地 址 可 以 作为 连接 的 一 个 端 
点 。 这 是 所 有 示例 程序 所 期 望 的 行为 。 
e ai flags 字段 是 一 个 位 掩 码 ， 可 以 进一步 修改 默认 行为 。 可 以 把 各 种 值 用 OR 组 
合 起 来 得 到 该 掩 码 。 下 面 是 一 些 我 们 认为 有 用 的 值 : 
AL ADDRCONFIG。 如 果 在 使 用 连接 ， 就 推荐 使 用 这 个 标志 [34]。 它 要 求 只 有 当 
本 地 主机 被 配置 为 IPv4 时 ，getaddrinfo 返回 IPv4 地 址 。 对 IPv6 也 是 类 似 。 
AI CANONNAME。ai canonname 字段 默认 为 NULL。 如 果 设 置 了 该 标志 ， 
就 是 告诉 getaddrinfo 将 列表 中 第 一 个 addrinfo 结构 的 ai canonname 字段 指向 
host 的 权威 (官方 ) 名 字 ( 见 图 11-15 ) 。 
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AL NUMERICSERV。 参 数 service 默认 可 以 是 服务 名 或 端口 号 。 这 个 标志 
强制 参数 service 为 端口 号 。 
Al PASSIVE。getaddrinfo 默认 返回 套 接 字 地 址 ， 客 户 问 可 以 在 调用 connect 
时 用 作 主 动 套 接 字 。 这 个 标志 告诉 该 函数 ,返回 的 套 接 字 地 址 可 能 被 服务 器 用 作 监 
听 套 接 字 。 在 这 种 情况 中 ， 参 数 host 应 该 为 NULL。 得 到 的 套 接 字 地 址 结构 中 的 
地 址 字段 会 是 通配符 地 址 (wildcard address)， 告 诉 内 核 这 个 服务 器 会 接受 发 送 到 该 
主机 所 有 IP 地 址 的 请 求 。 这 是 所 有 示例 服务 器 所 期 望 的 行为 。 


code/netp/netpfragments.c 
struct addrinfo { 


int ai_flags; /* Hints argument flags */ 
int ai_family; /* First arg to socket function */ 
int ai_socktype; /* Second arg to socket function */ 
int ai_protocol; /* Third arg to socket function */ 
char *ai_canonname; /* Canonical hostname */ 
size_t ai_addrlen; /* Size of ai_addr struct */ 
struct sockaddr *ai_addr; /* Ptr to socket address structure */ 
struct addrinfo *ai_next; /* Ptr to next item in linked list */ 
}; 
code/netp/neipfragments.c 


图 11-16 getaddrinfo 使 用 的 addrinfo 结构 


当 getaddrinfo 创建 输出 列表 中 的 addrinfo 结构 时 ,会 填写 每 个 字段 ， 除了 ai 
flags。ai addr 字段 指向 一 个 套 接 字 地 址 结构 ，ai _addrlen 字段 给 出 这 个 套 接 字 地 址 
结构 的 大 小 ， 而 ai next 字段 指向 列表 中 下 一 个 addrinfo 结构 。 其 他 字段 描述 这 个 套 接 
字 地 址 的 各 种 属性 。 

getaddrinfo 一 个 很 好 的 方面 是 addrinfo 结构 中 的 字段 是 不 透明 的 ， 即 它们 可 以 直 
接 传 递 给 套 接 字 接 口中 的 函数 ， 应 用 程序 代码 无 需 再 做 任何 处 理 。 例 如 ， ai family、ai 
socktype 和 ai protocol 可 以 直接 传递 给 socket。 类 似 地 ，ai addr 和 ai adgddrlen 
可 以 直接 传递 给 connect 和 pbind。 这 个 强大 的 属性 使 得 我 们 编写 的 客户 问 和 服务 如 能 够 
独立 于 某 个 特殊 版 本 的 IP 协议 。 

2. getnameinfo 函数 

getnameinfo 函数 和 getaddrinfo 是 相反 的 ， 将 一 个 套 接 字 地 址 结构 转换 成 相应 的 
主机 和 服务 名 字符 串 。 它 是 已 弃 用 的 gethostbyaddr 和 getservbyport 函数 的 新 的 替代 
品 ， 和 以 前 的 那些 函数 不 同 ， 它 是 可 重信 和 与 协议 无 关 的 。 


#include <sys/socket.h> 
#include <netdb.h> 


int getnameinfo(const struct sockaddr *sa, socklen_t salen, 


char *host, size_t hostlen, 
char *service, size_t servlen, int flags); 


返回 : 如 果 成 功 则 为 0， 如果 错 误 则 为 非 替 的 错误 代码 。 





参数 sa 指向 大 小 为 salen 字 节 的 套 接 字 地 址 结构 ，host 指 回 大 小 为 hostlen 字 节 的 组 
冲 区 ，service 指向 大 小 为 servlen 字 节 的 缓冲 区 。getnameinfo 函数 将 套 接 字 地 址 结构 sa 
转换 成 对 应 的 主机 和 服务 名 字符 串 ， 并 将 它们 复制 到 host 和 servcice 缓冲 区 。 如 果 getnam- 
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einfo 返回 非 零 的 错误 代码 ， 应 用 程序 可 以 调用 gai strerror 把 它 转化 成 字符 串 。 
如 果 不 想 要 主机 名 ， 可 以 把 host 设置 为 NULL，hostlen 设置 为 0。 对 服务 字段 来 
说 也 是 一 样 。 不 过 ， 两 者 必须 设置 其 中 之 一 。 
参数 flags 是 一 个 位 掩 码 ， 能够 修改 默认 的 行为 。 可 以 把 各 种 值 用 OR 组 合 起 来 得 到 
该 掩 码 。 下 面 是 两 个 有 用 的 值 : 
e NIL NUMERICHOST。getnameinfo 默认 试图 返回 host 中 的 域名 。 设 置 该 标志 会 
使 该 图 数 返 回 一 个 数字 地 址 字符 串 。 
e NI_ NUMERICSERV。getnameinfo 默认 会 检查 /etc/services， 如 果 可 能 ， 会 返回 
服务 名 而 不 是 并 口 号 。 设 置 该 标志 会 使 该 阴 数 跳 过 查找 ， 简 单 地 返回 羡 口 号 。 
图 11-17 给 出 了 一 个 简单 的 程序 ， 称 为 HOSTINFO， 它 使 用 getaddrinfo 和 getnameinfo 
展示 出 域名 到 和 它 相 关联 的 IP 地 址 之 间 的 映射 。 该 程序 类 似 于 11.3.2 市 中 的 NSLOOKUP 
程序 。 


code/netp/hostinfo.c 
1  #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 芋 
5 struct addrinfo *p, *listp, hints; 
6 char buf [MAXLINE] ; 
7 int rc, flags; 
8 
9 if (argc != 2) { 
10 fprintf(stderr, "usage: %s <domain name>\n", argv[0]); 
11 exit(0); 
12 上 
i8 
14 /* Get a list of addrinfo records */ 
15 memset (&hints, 0, sizeof(struct addrinfo) ) ; 
16 hints.ai_family = AF_INET; /* IPv4 only */ 
17 hints.ai_socktype = SOCK_STREAM; /* Connections only */ 
18 if ((rc = getaddrinfo(argv[1], NULL, &hints, &listp)) != 0) { 
19 fprintf(stderr, "getaddrinfo error: hs\n", gai_strerror(rc)); 
20 exit(1); 
21 } 
22 
23 /* Walk the list and display each IP address */ 
24 flags = NI_NUMERICHOST; /* Display address string instead of domain name */ 
25 for (p = listp; p; p = p->ai_next) { 
26 Getnameinfo(p->ai_addr, p->ai_addrlen, buf, MAXLINE, NULL, 0, flags); 
27 printf("%s\n", buf); 
28 } 
29 
30 /* Clean up */ 
31 Freeaddrinfo(listp); 
32 
33 exit(O) ; 
34 } 
code/netp/hostinfo.c 


图 11-17 HOSTINFO 展示 出 域名 到 和 它 相 关联 的 IP 地 址 之 间 的 上 映射 
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首先 ， 初 始 化 hints 结构 ， 使 getaddrinfo 返回 我 们 想 要 的 地 址 。 在 这 里 ， 我 们 想 
查找 32 位 的 IP 地 址 (第 16 行 )， 用 作 连 接 的 端点 (第 17 行 )。 因 为 只 想 getaddrinfo 转换 
域名 ， 所 以 用 service 参数 为 NULL 来 调用 它 。 

调用 getaddrinfo 之 后 ， 会 遍历 addrinfo 结构 ， 用 getnameinfo 将 每 个 套 接 字 地 
址 转换 成 点 分 十 进 制 地 址 字符 串 。 遍 历 完 列表 之 后 ,我们 调用 freeaddrinfo 小 心地 释放 
这 个 列表 (虽然 对 于 这 个 简单 的 程序 来 说 ， 并 不 是 严格 需要 这 样 做 的 )。 

运行 HOSTINFO 时 ， 我 们 看 到 twitter .com 映射 到 了 四 个 IP 地址 ， 和 11.3.2 节 用 
NSLOOKUP 的 结果 一 样 。 

linux> ./hostinfo twitter.com 

199 .16.156.102 

199 .16.1586 .230 


199.16.156.6 
199.16.156.70 





SN 练习 题 11.4 ”函数 getaddrinfo 和 getnameinfo 分 别 包含 了 inet pton 和 inet ntop 
的 功能 ， 提 供 了 更 高 级 别 的 、 独 立 于 任何 特殊 地 址 格式 的 抽象 。 想 看 看 这 到 底 有 多 方 
便 ， 编 写 HOSTINFO( 图 11-17) 的 一 个 版 本 ， 用 inet pton 而 不 是 getnameinfo 将 每 个 
套 接 字 地 址 转换 成 点 分 十 进 制 地 址 字符 串 。 


11. 4.8 套 接 字 接 口 的 辅助 函数 


初学 时 ，getnameinfo 了 消 数 和 套 接 字 接 口 看 上 去 有 些 可 怕 。 用 高 级 的 辅助 函数 包 半 
一 下 会 方便 很 多 ， 称 为 open clientfd 和 open listenfd， 客 户 端 和 服务 器 互相 通信 时 
可 以 使 用 这 些 函 数 。 

1. open_clientfd 函数 

客户 端 调用 open clientfd 建立 与 服务 舌 的 连接 。 


#include "csapp.h" 


int open_clientfd(char *hostname, char *port); 


返回 : 车 成 功 则 为 描述 符 ， 若 出 错 则 为 一 1。 





open_clientfd 函数 建立 与 服务 融 的 连接 ， 该 服务 硕 运 行 在 主机 hostname 上 ， 并 在 
端口 号 port 上 监听 连接 请 求 。 它 返回 一 个 打开 的 套 接 字 描述 符 ， 该 描述 符 准备 好 了 ， 可 
以 用 Unix 1/O 函数 做 输入 和 输出 。 图 11-18 给 出 了 open clientfaq 的 代码 。 

我 们 调用 getaddrinfo， 它 返回 addrinfo 结构 的 列表 ， 每 个 结构 指向 一 个 套 接 字 地 
址 结构 ， 可 用 于 建立 与 服务 器 的 连接 ， 该 服务 器 运行 在 hostname 上 并 监听 port 端口 。 
然后 遍历 该 列表 ， 依 次 尝试 列表 中 的 每 个 条 目 ， 直 到 调用 socket 和 connect 成 功 。 如 果 
connect 失败 ， 在 尝试 下 一 个 条 目 之 前 ， 要 小 心地 关闭 套 接 字 描 述 符 。 如 果 connect 成 
功 ， 我 们 会 释放 列表 内 存 ， 并 把 套 接 字 摘 述 符 返 回 给 客户 端 ， 客 户 端 可 以 立即 开始 用 
Unix I/O 与 服务 器 通信 了 。 

注意 ， 所 有 的 代码 都 与 任何 版 本 的 IP 无 关 。socket 和 connect 的 参数 都 是 用 
getaddrinfo 自动 产生 的 ， 这 使 得 我 们 的 代码 干净 可 移植 。 

2. open_listenfd 函数 

调用 open listenfd 因数 ， 服 务 器 创建 一 个 监听 描述 符 ， 准 备 好 接收 连接 请 求 。 
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#include "csapp.h" 


int open_listenfd(char *port); 





返回 : 车 成 功 则 为 描述 符 ， 若 出 错 则 为 一 1。 


code/src/csapp.c 
1 int open_clientfd(char *hostname, char *port) { 
2 int, Tliantfd: 
3 struct addrinfo hints, *listp, *p; 
4 
5 /* Get a list of potential server addresses */ 
6 memset (&hints, 0, sizeof (struct addrinfo)): 
7 hints.ai_socktype = SOCK_STREAM; /* Open a connection */ 
8 hints.ai_flags = AI_NUMERICSERV; /* ... using a numeric port arg. */ 
， hints.ai_flags |= AI_ADDRCONFIG; /* Recommended for connections */ 
10 Getaddrinfo(hostname, port, &hints, &listp); 
11 
12 /* Walk the list for one that we can successfully connect to */ 
13 for (p = listp; p; p = p->ai_next) { 
14 /* Create a socket descriptor */ 
15 if ((clientfd = socket(p->ai_family, p->ai_socktype, p->ai_protocol)) 
16 < 0) continue; /* Socket failed, try the next */ 
17 
18 /* Connect to the server */ 
19 if (connect(clientfd, p->ai_addr, p->ai_addrlen) != -1) 
20 break; /* Success */ 
21 Close(clientfd); /* Connect failed, try another */ 
22 } 
23 
24 /* Clean up */ 
25 Freeaddrinfo(listp); 
26 if (Ip) /* All connects failed */ 
27 return -1; 
28 else /* The last connect succeeded */ 
29 return clientfd; 
30 J} 
code/src/csapp.c 


图 11-18 ”open clientfd: 和 服务 器 建立 连接 的 辅助 函数 。 它 是 可 重信 和 与 协议 无 关 的 


open listenfd 困 数 打开 和 返回 一 个 监听 描述 符 ， 这 个 描述 符 准 备 好 在 端口 port 上 
接收 连接 请 求 。 图 11-19 展示 了 open listenfd 的 代码 。 

open listenfd 的 风格 类 似 于 open clientfd。 调 用 getaddrinfo， 然 后 遍历 结果 列 
表 ， 直 到 调用 socket 和 bind 成功。 注意 ， 在 第 20 行 ， 我 们 使 用 setsockopt 函数 (本 书 中 
没有 讲述 ) 来 配置 服务 器 ， 使 得 服务 器 能 够 被 终止 、 重 启 和 立即 开始 接收 连接 请 求 。 一 个 重 
启 的 服务 器 默 认 将 在 大 约 30 秒 内 拒绝 客户 端的 连接 请 求 ， 这 严重 地 阻碍 了 调试 。 

因为 我 们 调用 getagddrinfo 时 ,使 用 了 AI_PASSIVE 标志 并 将 host 参数 设置 为 
NULL， 每 个 套 接 字 地 址 结构 中 的 地 址 字段 会 被 设置 为 通配符 地 址 ， 这 告诉 内 核 这 个 服务 
器 会 接收 发 送 到 本 主机 所 有 IP 地 址 的 请 求 。 
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code/src/csapp.c 
1 int open_listenfd(char *port) 
2 所 
3 struct addrinfo hints, *listp, *p; 
4 int listenfd, optval=1,; 
5 
6 /* Get a list of potential server addresses */ 
7 memset (&hints, 0, sizeof (struct addrinfo)); 
8 hints.ai_socktype = SOCK_STREAM; /* Accept connections */ 
9 hints.ai_flags = AI_PASSIVE | AI_ADDRCONFIG; /* ... on any IP address */ 
10 hints.ai_flags |= AI_NUMERICSERV ; /* ... using port number */ 
11 Getaddrinfo(NULL, port, &hints, &listp); 
12 
13 /* Walk the list for one that we can bind to */ 
14 for (p = listp; p; P = p->ai_next) { 
15 /* Create a socket descriptor */ 
16 if ((listenfd = socket(p->ai_family, p->ai_socktype, p->ai_protocol)) 
17 < 0) continue; /* Socket failed, try the next */ 
18 
19 /* Eliminates "Address already in use" error from bind */ 
20 Setsockopt (listenfd, SOL_SOCKET, SO_REUSEADDR, 
2] (const void *)&optval , sizeof (int)); 
22 
23 /* Bind the descriptor to the address */ 
24 if (bind(listenfd, p->ai_addr, p->ai_addrlen) == 0) 
25 break; /* Success */ 
26 Close(listenfd); /* Bind failed, try the next */ 
27 } 
28 
29 /* Clean up */ 
30 Freeaddrinfo(listp); 
31 if (!Ip) /* No address worked */ 
32 return -1; 
33 
34 /* Make it a listening socket ready to accept connection requests */ 
35 if (listen(listenfd, LISTENQ) < 0) { 
36 Close(listenfd); 
37 return -1:; 
38 } 
39 return listenfd; 
40  } 
code/src/csapp.c 
图 11-19 ”open listenfd: 打开 并 返回 监听 描述 符 的 辅助 函数 。 它 是 可 重 入 和 与 协议 无 关 的 


最 后 ， 我 们 调用 listen 函数 ， 将 1istenfd 转换 为 一 个 监听 描述 符 ， 并 返回 给 调用 
者 。 如 果 listen 失败 ， 我 们 要 小 心地 避免 内 存 泄漏 ， 在 返回 前 关闭 描述 符 。 


11.4.9 ” echo 客户 端 和 服务 兹 的 示例 
学 习 套 接 字 接口 的 最 好 方法 是 研究 示例 代码 。 图 11-20 展示 了 一 个 echo 客户 端的 代 
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码 。 在 和 服务 器 建立 连接 之 后 ， 客 户 端 进入 一 个 循环 ， 反复 从 标准 输入 读 取 文本 行 ， 发 送 
文本 行 给 服务 器 ， 从 服务 器 读 取 回 送 的 行 ， 并 输出 结果 到 标准 输出 。 当 fgets 在 标准 输入 
上 过 到 EOF 时 ， 或 者 因为 用 户 在 键盘 上 键入 Ctrl 十 D， 或 者 因为 在 一 个 重 定向 的 输入 文件 
中 用 尽 了 所 有 的 文本 行 时 ， 循 环 就 终止 。 


code/netp/echoclient.c 
] #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 { 
5 int clientfd,; 
6 char *host, *port, buf [MAXLINE] ; 
7 riot rf10; 
8 
9 if (argc != 3) { 
10 fprintf(stderr, "usage: %s <host> <port>\n", argv[0]); 
11 exit(0); 
12 } 
13 host = argv[1]; 
14 port = argv[2]; 
15 
16 clientfd = Open_clientfd(host, port); 
17 Rio_readinitb(&rio, clientfd); 
18 
19 while (Fgets(buf, MAXLINE, stdin) != NULL) { 
20 Rio_writen(clientfd, buf, strlen(buf)); 
2] Rio_readlineb(&rio, buf, MAXLINE); 
22 Fputs(buf, stdout); 
23 } 
24 Close(clientfd) ; 
25 exit (0); 
26 } 
code/netp/echoclient.c 
图 11-20 ”echo 客户 端的 主 程序 


循环 终止 之 后 ， 客 户 端 关闭 摘 述 符 。 这 会 导致 发 送 一 个 EOF 通知 到 服务 器 ， 当 服务 
种 从 它 的 reo readlineb 图 数 收 到 一 个 为 零 的 返回 码 时 ， 就 会 检测 到 这 个 结果 。 在 关闭 
它 的 描述 符 后 ， 客 户 端 就 终止 了 。 既 然 客 户 端 内 核 在 一 个 进程 终止 时 会 自动 关闭 所 有 打开 
的 描述 符 ， 第 24 行 的 close 就 没有 必要 了 。 不 过 ， 显 式 地 关闭 已 经 打开 的 任何 描述 符 是 
一 个 展 好 的 编程 习惯 。 

图 11-21 展示 了 echo 服务 需 的 主 程序 。 在 打开 监听 描述 符 后 ， 它 进 入 一 个 无 限 循环 。 
每 次 循环 都 等 待 一 个 来 自 客 户 端的 连接 请 求 ， 输 出 已 连接 客户 端的 域名 和 IP 地 址 ， 并 调 
用 echo 因数 为 这 些 客户 端 服务 。 在 echo 程序 返回 后 ， 主 程序 关闭 已 连接 描述 符 。 一 旦 客 
户 端 和 服务 器 关闭 了 它们 各 目的 描述 符 ， 连 接 也 就 终止 了 。 

第 9 行 的 clientaddr 变量 是 一 个 套 接 字 地 址 结构 ， 被 传递 给 accept。 在 accept 返 
回 之 前 ， 会 在 clientaddr 中 填 上 连接 另 一 端 客 户 端的 套 接 字 地 址 。 注意， 我 们 将 cli- 
entaddr 声明 为 struct sockadqr storage 类 型 ， 而 不 是 struct sockaddr in 类 型 。 
根据 定义 ，sockaddr_storage 结构 足够 大 能 够 装 下 任何 类 型 的 套 接 字 地 址 ， 以 保持 代码 
的 协议 无 关 性 。 
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code/netp/echoserveri.c 


#include "csapp.h" 
void echo(int connfd); 


int main(int argc, char **argv) 


int listenfd, connfd; 

socklen _t clientlen,; 

struct sockaddr_storage clientaddr; /* Enough space for any address */ 
char client_hostname [MAXLINE], client_port [MAXLINE]; 


if (argc != 2) { 
fprintf(stderr, "usage: %s <port>\n", argv[0]); 
exit (0).; 

} 


listenfd = Open_listenfd(argv[1]); 
while (1) { 
clientlen = sizeof(struct Sockaddr_storage) ; 
connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
Getnameinfo((SA *) &clientaddr, clientlen, client_hostname, MAXLINE, 
client_port, MAXLINE, 0); 
printf("Connected to (%s, %s)\n", client_hostname, client_port); 


echo(connfd) ; 
Close(connfd) ; 
} 
exit(0); 


code/netp/echoserveri.c 


图 11-21 和 迭代 echo 服务 器 的 主 程序 


注意 ， 简 单 的 echo 服务 器 一 次 只 能 处 理 一 个 客户 端 。 这 种 类 型 的 服务 器 一 次 一 个 地 
在 客户 端 间 进 代 ， 称 为 迭代 服务 器 (iterative server)。 在 第 12 童 中， 我 们 将 学 习 如 何 建 立 
更 加 复杂 的 并 发 服务 器 (concurrent server)， 它 能 够 同时 处 理 多 个 客户 疹 。 

最 后 ， 图 11-22 展示 了 echo 程序 的 代码 ， 该 程序 反复 读 写 文本 行 ， 和 直到 rio_readlineb 
函数 在 第 10 行 遇 到 EOF。 


wd 
WN 一 O00WNO WWN 一 


code/netp/echo.c 
#include "csapp.h" 
void echo(int connfd) 
和 
size 七 卫 ; 
char buf [MAXLINE] ; 
Fio.t TIO 
Rio_readinitb(&rio, connfd); 
while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
printf("server received %d bytes\n", (int)n); 
Rio_writen(connfd, buf, n); 
} 
} 


code/netp/echo.c 
图 11-22 读 和 回 送 文本 行 的 echo 函数 
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EE 在 连接 中 EOF 意味 什么 ? 

EOF 的 概念 常常 使 人 们 感到 迷惑 ， 尤 其 是 在 因特网 连接 的 上 下 文中 。 首 先 ， 我 们 
需要 理解 其 实 并 没有 像 EOF 字符 这 样 的 一 个 东西 。 进 一 步 来 说 ，EOF 是 由 内 核 检 测 到 
的 一 种 条 件 。 应 用 程序 在 它 接 收 到 一 个 由 read 函数 返回 的 零 返 回 码 时 ， 它 就 会 发 现 出 
EOF 条 件 。 对 于 磁盘 文件 ， 当 前 文件 位 置 超出 文件 长 度 时 ， 会 发 生 EOF。 对 于 因特网 
连接 ， 当 一 个 进程 关闭 连接 它 的 那 一 端 时 ， 会 发 生 EOF。 连 接 另 一 端的 进程 在 试图 读 取 
流 中 最 后 一 个 字 节 之 后 的 字 节 时 ， 会 检测 到 下 OF 。 


11.5 Web 服务 希 


迄今 为 止 ， 我 们 已 经 在 一 个 简单 的 echo 服务 器 的 上 下 文中 讨论 了 网 络 编程 。 在 这 一 
节 里 ， 我 们 将 向 你 展示 如 何 利 用 网 络 编程 的 基本 概念 ， 来 创建 你 自己 的 虽 小 但 功能 齐全 的 
Web 服务 需 。 


11.5.1 Web 基础 


Web 客户 端 和 服务 器 之 间 的 交互 用 的 是 一 个 基于 文本 的 应 用 级 协议 ， 叫 做 HTTP 
(Hypertext Transfer Protocol， 超 文本 传输 协议 ) 。HTTP 是 一 个 简单 的 协议 。 一 个 Web 
客户 端 ( 即 浏览 器 ) 打 开 一 个 到 服务 器 的 因特网 连接 ， 并 且 请 求 某 些 内 容 。 服 务 器 啊 应 所 请 
求 的 内 容 ， 然 后 关闭 连接 。 浏 览 器 读 取 这 些 内 容 ， 并 把 它 显 示 在 屏幕 上 。 

Web 服务 和 常规 的 文件 检索 服务 (例如 FTP) 有 什么 区 别 呢 ?主要 的 区 别 是 Web 内 容 
可 以 用 一 种 叫做 HTML(Hypertext Markup Language， 超 文本 标记 语言 ) 的 语言 来 编写 。 
一 个 HTML 程序 (页 ) 包 含 指令 (标记 )， 它 们 告诉 浏览 器 如 何 显示 这 页 中 的 各 种 文本 和 图 
形 对 象 。 例 如 ， 代 码 

<b> Make me bold! </b> 


告诉 浏览 器 用 粗 体 字 类 型 输出 <b> 和 < /b> 标记 之 间 的 文本 。 然 而 ，HTML 真正 的 强大 
之 处 在 于 一 个 页 面 可 以 包含 指针 ( 超 链 接 )， 这 些 指 针 可 以 指向 存放 在 任何 因特网 主机 上 的 
内 容 。 例 如 ， 一 个 格式 如 下 的 HTML 行 


<a href="http://wwuw.cmu.edu/index.html">Carnegie Mellon</a> 


告诉 浏览 器 高 亮 显 示 文 本 对 象 “carnegie Mellon”， 并 且 创 建 一 个 超 链接 ， 它 指向 存放 
在 CMU Web 服务 器 上 叫做 index.html 的 HTML 文件 。 pe ht et 
对 象 ， 浏 览 右 就 会 从 CMU 服务 器 中 请 求 相 应 的 HTML 文件 并 显示 它 。 


EE 万 维 网 的 起 源 

万 维 网 是 Tim Berners-Lee 发 明 的 ， 他 是 一 位 在 瑞典 物理 实验 室 CERN( 欧 洲 粒 子 物理 研 
究 所 ) 工 作 的 软件 工程 师 。1989 年 ，Berners-Lee 写 了 一 个 内 部 备忘录 ， 提 出 了 一 个 分 布 式 超 文 
本 系统 ， 它 能 连接 “用 链接 组 成 的 笔记 的 网 (web of notes with links)”。 提 出 这 个 系统 的 目的 是 
帮助 CERN 的 科学 家 共享 和 管理 信息 。 在 接 下 来 的 两 年 多 里 ，Berners-Lee 实现 了 第 一 个 Web 服 
务 器 和 Web 浏览 器 之 后 ， 在 CERN 内 部 以 及 其 他 一 些 网 站 中 ，Web 发 展 出 了 小 规模 的 拥护 者 。 
1993 年 一 个 关键 事件 发 生 了 ，Marc Andreesen( 他 后 来 创建 了 Netscape) 和 他 在 NCSA 的 同事 发 布 
了 一 种 图 形 化 的 浏览 器 ， 叫 做 MOSAIC， 可 以 在 三 种 主要 的 平台 上 所 使 用 : Unix、Windows 和 
Macintosh。 在 MOSAIC 发 布 后 ， 对 Web 的 兴趣 爆发 了 ，Web 网 站 以 每 年 10 倍 式 更 高 的 数量 增 
长 。 到 2015 年 ， 世 界 上 已 经 有 超过 975 000 000 个 Web 网 站 了 ( 源 自 Netcraft Web Survey)。 
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11. 5.2 Web 内 容 


对 于 Web 客户 端 和 服务 器 而 言 ， 内 容 是 与 一 个 MIME(Multipurpose Internet Mail 
Extensions， 多 用 途 的 网 际 邮 件 扩 充 协 议 ) 类 型 相关 的 字 节 序列 。 图 11-23 展示 了 一 些 稼 用 
的 MIME 类 型 。 


text/html HTML 页 面 
text/plain 无 格式 文本 


application/postscript Postscript 文档 

image/gif GIF 格式 编码 的 二 进 制图 像 
image/png PNG 格式 编码 的 二 进 制 图 像 
image/ijpeg JPEG 格式 编码 的 二 进 制图 像 


图 11-23 MIME 类 型 示例 





Web 服务 器 以 两 种 不 同 的 方式 向 客户 端 提供 内 容 : 

e 取 一 个 磁盘 文件 ， 并 将 它 的 内 容 返回 给 客户 端 。 磁 盘 文件 称 为 静态 内 容 (static con- 
tent) ， 而 返回 文件 给 客户 端的 过 程 称 为 服务 静态 内 容 (serving static content) 。 

e@ 运行 一 个 可 执行 文件 ， 并 将 它 的 输出 返回 给 客户 端 。 运 行 时 可 执行 文件 产生 的 输出 
称 为 动态 内 容 (dynamic content) ， 而 运行 程序 并 返回 它 的 输出 到 客户 闪 的 过 程 称 为 
服务 动态 内 容 (serving dynamic content) 。 

每 条 由 Web 服务 器 返回 的 内 容 都 是 和 它 管理 的 某 个 文件 相关 联 的 。 这 些 文件 中 的 每 一 个 都 

有 一 个 唯一 的 名 字 ， 叫 做 URL(Universal Resource Locator， 通 用 资源 定位 符 )。 例 如 ，URL 


http://www.google.com:80/index.html 


表示 因特网 主机 www.google .com 上 一 个 称 为 Vindex.html 的 HTML 文件 ， 它 是 由 一 个 
监听 端口 80 的 Web 服务 器 管理 的 。 端 口号 是 可 选 的 ， 黑 认为 知名 的 HTTP 端口 80。 可 
执行 文件 的 URL 可 以 在 文件 名 后 包括 程序 参数 。“?” 字 符 分 隅 文件 名 和 参数 ， 而 且 每 个 
参数 都 用 “8& ”字符 分 隅 开 。 例 如 ，URL 


http://bluefish.ics.cs.cmu.edu:8000/cgi-bin/adder?15000&213 


标识 了 一 个 叫做 /cgi- bin/adger 的 可 执行 文件 ， 会 带 两 个 参数 字符 串 15000 和 213 来 调用 
它 。 在 事务 过 程 中 ， 客 户 端 和 服务 器 使 用 的 是 URL 的 不 同 部 分 。 例 如 ， 客 户 端 使 用 前 绥 
http://www.google.com:80 


来 决定 与 哪 类 服务 器 联系 ， 服 务 器 在 哪里 ， 以 及 它 监 听 的 端口 号 是 多 少 。 服 务 顺 使 用 后 绥 
/index.html 


来 发 现在 它 文件 系统 中 的 文件 ， 并 确定 请 求 的 是 静态 内 容 还 是 动态 内 容 。 

关于 服务 器 如 何 解 释 一 个 URL 的 后 级 ， 有 几 点 需要 理解 : 

e 确定 一 个 URL 指向 的 是 静态 内 容 还 是 动态 内 容 没 有 标准 的 规则 。 每 个 服务 器 对 它 
所 管理 的 文件 都 有 自己 的 规则 。 一 种 经 典 的 (老式 的 ) 方 法 是 ， 确 定 一 组 目录 ， 例 如 
cgi-bin， 所 有 的 可 执行 性 文件 都 必须 存放 这 些 目录 中 。 

e 后 级 中 的 最 开始 的 那个 “/” 不 表示 Linux 的 根 目 录 。 相 反 ， 它 表示 的 是 被 请 求 内 容 
类 型 的 主 目录 。 例 如 ， 可 以 将 一 个 服务 器 配置 成 这 样 : 所 有 的 静态 内 容 存 放 在 目录 / 
usr/httpd/html 下 ， 而 所 有 的 动态 内 容 都 存放 在 目录 /usr/httpd/cgi-bin 下 。 
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e 最 小 的 URL 后 级 是 “/” 字 符 ， 所 有 服务 右 将 其 扩展 为 某 个 默认 的 主页 ， 例 如 /ingex. 
html。 这 解释 了 为 什么 简单 地 在 浏览 器 中 键入 一 个 域名 就 可 以 取出 一 个 网 站 的 主 
页 。 浏 览 右 在 URL 后 添加 缺失 的 “/”， 并 将 之 传递 给 服务 器 ， 服 务 絮 又 把 “/” 扩 
展 到 某 个 默认 的 文件 名 。 


11. 5. 3 ” HTTP 事务 


因为 HTTP 是 基于 在 因特网 连接 上 传送 的 文本 行 的 ， 我们 可 以 使 用 Linux 的 TEL- 
NET 程序 来 和 因特网 上 的 任何 Web 服务 器 执行 事务 。 对 于 调试 在 连接 上 通过 文本 行 来 与 
客户 端 对 话 的 服务 器 来 说 ，TELNET 程序 是 非常 便利 的 。 例 如 ， 图 11-24 使 用 TELNET 
问 AOL Web 服务 器 请 求 主 页 。 


linux> telnet www.aol.com 80 Client: open connection to server 
Trying 205.188.146.23... Telnet prints 3 lines to the terminal 
Connected to aol.conm. 
Escape character is '“] '. 
GET 7 HITPA1.1 Client: request line 
Host;: www.aol .com Client: required HTTIP/1.1 header 

Client: empty line terminates headers 
HTTP/1.0 200 OK Server: response line 
MIME-Version: 1.0 Server: followed by five response headers 
Date: Mon, 8 Jan 2010 4:59:42 GMT 


© NN OO Ww hh ww hi 一 


Server: Apache-Coyote/1.1I 
Content-Type: text/html Server: expect HTML in the response body 
Content-Length: 42092 Server: expect 42,092 bytes in the response body 


<html> 


Server: 


Server: 


Server: 


empty line terminates response headers 
first HIML line in response body 
766 lines of HIML not shown 


</html> Server: last HIML line in response body 
Connection closed by foreign host. Server: closes connection 





linux> Client: closes connection and terminates 


图 11-24 一 个 服务 静态 内 容 的 HTTP 事务 


在 第 1 行 ， 我们 从 Linux shell 运行 TELNET， 要 求 它 打开 一 个 到 AOL Web 服务 器 的 连 
接 。TELNET 向 终端 打印 三 行 输出 ， 打 开 连 接 ， 然 后 等 待 我们 输入 文本 (第 5 行 )。 每 次 输入 
一 个 文本 行 ， 并 键入 回 车 键 ，TELNET 会 读 取 该 行 ， 在 后 面 加 上 回 车 和 换行 符号 (在 C 的 表 
示 中 为 “\r\n”)， 并 且 将 这 一 行 发 送 到 服务 器 。 这 是 和 HTTP 标准 相符 的 ，HTTP 标准 要 
求 每 个 文本 行 都 由 一 对 回 车 和 换行 符 来 结束 。 为 了 发 起 事务 ， 我 们 输入 一 个 HTTP 请 求 (第 
5 一 7 行 )。 服 务 器 返回 HTTP 响应 (第 8 一 17 行 )， 然 后 关闭 连接 (第 18 行 )。 

1. HTTP 请 求 

一 个 HTTP 请 求 的 组 成 是 这 样 的 : 一 个 请 求 行 (request line) (第 5 行 )， 后 面 跟随 零 
个 或 更 多 个 请 求 报头 (request header) (第 6 行 )， 再 跟随 一 个 空 的 文本 行 来 终止 报头 列表 
(第 7 行 )。 一 个 请 求 行 的 形式 是 

method URT version 
HTTP 支持 许多 不 同 的 方法 ， 包括 GET、POST、OPTIONS、HEAD、PUT、DELETE 
和 TRACE。 我 们 将 只 讨论 广 为 应 用 的 GET 方法 ， 大 多 数 HTTP 请 求 都 是 这 种 类 型 的 。 
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GET 方法 指导 服务 器 生成 和 返回 URI(Uniform Resource Identifier， 统 一 资源 标识 符 ) 标 
识 的 内 容 。URI 是 相应 的 URL 的 后 经， 包括 文件 名 和 可 选 的 参数 。” 

请 求 行 中 的 version 字段 表明 了 该 请 求 遵循 的 HTTP 版 本 。 最 新 的 HTTP 版 本 是 
HTTP/1,1137|]。HTTP/1.0 是 从 1996 年 沿用 至 今 的 老 版 本 [6]。HTTP/1.1 定义 了 一 
些 附 加 的 报头 ， 为 诸如 缓冲 和 安全 等 高 级 特性 提供 支持 ， 它 还 支持 一 种 机 制 ， 人 允许 客 户 疹 
和 服务 器 在 同一 条 持久 连接 (persistent connection) 上 执行 多 个 事务 。 在 实际 中 ， 两 个 版 本 
是 互相 兼容 的 ， 因 为 HTTP/1.0 的 客户 端 和 服务 侣 会 简单 地 忽略 HITP/1. 1 的 报头 。 

总 的 来 说 ， 第 5 行 的 请 求 行 要 求 服务 器 取出 并 返回 HTML 文件 /index.html。 它 也 
告知 服务 侨 请 求 剩 下 的 部 分 是 HTTP/1.1 格式 的 。 

请 求 报头 为 服务 器 提供 了 额外 的 信息 ， 例 如 浏览 器 的 商标 名 ， 或 者 浏览 硕 理 解 的 
MIME 类 型 。 请 求 报头 的 格式 为 

header-name: header-data 
针对 我 们 的 目的 ， 唯 一 需要 关注 的 报头 是 Host 报头 (第 6 行 )， 这 个 报头 在 HTTP/1.1 请 
求 中 是 需要 的 ， 而 在 HTTP/1.0 请 求 中 是 不 需要 的 。 代 理 缓存 (proxy cache) 会 使 用 Host 
报头 ， 这 个 代理 缓存 有 时 作为 浏览 器 和 管理 被 请 求 文件 的 原始 服务 器 (origin server) 的 中 
介 。 客 户 端 和 原始 服务 器 之 间 ， 可 以 有 多 个 代理 ， 即 所 谓 的 代理 链 (Proxy chain) 。 Host 
报头 中 的 数据 指示 了 原始 服务 器 的 域名 ， 使 得 代理 链 中 的 代理 能 够 判断 它 是 否 可 以 在 本 地 
缓存 中 拥有 一 个 被 请 求 内 容 的 副本 。 

继续 图 11-24 中 的 示例 ， 第 7 行 的 空 文本 行 (通过 在 键盘 上 键入 回 车 键 生成 的 ) 终 止 了 
报头 ， 并 指示 服务 器 发 送 被 请 求 的 HTML 文件 。 

2. HTTP 响应 

HTTP 响应 和 HTTP 请 求 是 相似 的 。 一 个 HTTP 响应 的 组 成 是 这 样 的 ; 一 个 响应 行 
(response line) (第 8 行 )， 后 面 跟随 着 零 个 或 更 多 的 响应 报头 (response header) (第 9 一 13 
行 )， 再 跟随 一 个 终止 报头 的 空 行 ( 第 14 行 )， 再 跟随 一 个 响应 主体 (response body) (第 15 一 17 
行 ) 。 一 个 响应 行 的 格式 是 

version status-code status-message 
version 字段 描述 的 是 响应 所 遵循 的 HTTP 版 本 。 状 态 码 (status-code) 是 一 个 3 位 的 正 整 数 ， 
指明 对 请 求 的 处 理 。 状 态 消息 (status message) 给 出 与 错误 代码 等 价 的 英文 描述 。 图 11-25 列 
出 了 一 些 常见 的 状态 码 ， 以 及 它们 相应 的 消息 。 


状态 代码 状态 消息 


成 功 





























永久 移动 内 容 已 移动 到 location 头 中 指明 的 主机 上 
错误 请 求 服务 器 不 能 理解 请 求 

禁止 服务 器 无 权 访 问 所 请 求 的 文件 

未 发 现 服务 器 不 能 找到 所 请 求 的 文件 

未 实现 服务 器 不 支持 请 求 的 方法 


HTTP 版 本 不 支持 服务 器 不 支持 请 求 的 版 本 


图 11-25 ”一 些 HTTP 状态 码 


昌 ”实际 上 ， 只 有 当 浏 览 器 请 求 内 容 时 ， 这 才 是 真 的 。 如 果 代 理 服 务 器 请 求 内 容 ， 那 么 这 个 URI 必须 是 完整 的 
URL。 
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第 9 一 13 行 的 响应 报头 提供 了 关于 啊 应 的 附加 信息 。 针 对 我 们 的 目的 ， 两 个 最 重要 的 
报头 是 content-Type( 第 12 行 )， 它 告诉 客户 端 响应 主体 中 内 容 的 MIME 类 型 ; 以 及 
Content-Length( 第 13 行 )， 用 来 指示 响应 主体 的 字 节 大 小 。 

第 14 行 的 终止 响应 报头 的 空 文本 行 ， 其 后 跟随 着 响应 主体 ， 啊 应 主体 中 包含 着 被 请 
求 的 内 容 。 


11.5.4 服务 动态 内 容 


如 果 我 们 停 下 来 考虑 一 下 ， 一 个 服务 器 是 如 何 癌 客户 端 提供 动态 内 容 的 ， 就 会 发 现 一 
些 问题 。 例 如 ， 客 户 端 如 何 将 程序 参数 传递 给 服务 器 ?服务 器 如 何 将 这 些 参 数 传递 给 它 所 
创建 的 子 进程 ?” 服务 器 如 何 将 子 进 程 生成 内 容 所 需要 的 其 他 信息 传递 给 子 进 程 ? 子 进程 将 
它 的 输出 发 送 到 哪里 ? 一 个 称 为 CGICCommon Gateway Interface， 通 用 网 关 接 口 ) 的 实际 
标准 的 出 现 解决 了 这 些 问 题 。 

1. 客户 端 如 何 将 程序 参数 传递 给 服务 器 

GET 请 求 的 参数 在 URI 中 传递 。 正 如 我 们 看 到 的 ， 一 个 “?” 字 符 分 隔 了 文件 名 和 参 
数 ， 而 每 个 参数 都 用 一 个 “&” 字符 分 隔 开 。 参 数 中 不 允许 有 空格 ， 而 必须 用 字符 串 “%20” 
来 表示 。 对 其 他 特殊 字符 ， 也 存在 着 相似 的 编码 。 


EE 在 HTTP POST 请 求 中 传递 参数 


HTTP POST 请 求 的 参数 是 在 请 求 主体 中 而 不 是 URI 中 传递 的 。 


2. 服务 器 如 何 将 参数 传递 给 子 进程 
在 服务 器 接收 一 个 如 下 的 请 求 后 
GET /cgi-bin/adder?15000&213 HTTP/1.1 


它 调 用 fork 来 创建 一 个 子 进程 ， 并 调用 execve 在 子 进程 的 上 下 文中 执行 /cgi-bin/ad- 
der 程序 。 像 adder 这 样 的 程序 ， 常 常 被 称 为 CGI 程序 ， 因 为 它们 遵守 CGI 标准 的 规则 。 
而 且 ， 因 为 许多 CGI 程序 是 用 Perl 脚本 编写 的 ， 所 以 CGI 程序 也 常 被 称 为 CGI 脚本 。 在 
调用 execve 之 前 ， 子 进程 将 CGI 环境 变量 QUERY STRING 设置 为 “15000&213”，ad- 
der 程序 在 运行 时 可 以 用 Linux getenv 图 数 来 引用 它 。 

3. 服务 器 如 何 将 其 他 信息 传递 给 子 进程 

CGI 定义 了 大 量 的 其 他 环境 变量 ,一 个 CGI 程序 在 它 运 行 时 可 以 设置 这 些 环境 变量 。 
图 11-26 给 出 了 其 中 的 一 部 分 。 


QUERY STRING 程序 参数 


SERVER_PORT 父 进程 侦 听 的 端口 
REQUEST _ METHOD GET 或 POST 


REMOTE HOST 客户 端的 域名 

REMOTE ADDR 客户 端的 点 分 十 进 制 下 地址 

CONTENT _ TYPE 只 对 POST 而 言 : 请 求 体 的 MIME 类 型 
CONTENT LENGTH 只 对 POST 而 言 : 请 求 体 的 字 节 大 小 





图 11-26 CGI 环境 变量 示例 


4. 子 进程 将 它 的 输出 发 送 到 哪里 
一 个 CGI 程序 将 它 的 动态 内 容 发 送 到 标准 输出 。 在 子 进程 加 载 并 运行 CGI 程序 之 前 ， 
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它 使 用 Linux dup2 函数 将 标准 输出 重 定 癌 到 和 客户 端 相 关联 的 已 连接 描述 符 。 因 此 ， 任 
何 CGI 程序 写 到 标准 输出 的 东西 都 会 直接 到 达 客 户 端 。 

注意 ， 因 为 父 进程 不 知道 子 进程 生成 的 内 容 的 类 型 或 大 小 ， 所 以 子 进程 就 要 负责 生成 
Content-type 和 Content- Length 啊 应 报头 ， 以 及 终止 报头 的 空 行 。 

图 11-27 展示 了 一 个 简单 的 CGI 程序 ， 它 对 两 个 参数 求 和 ， 并 返回 市 结果 的 HTML 
文件 给 客户 端 。 图 11-28 展示 了 一 个 HTTP 事务 ， 它 根据 adder 程序 提供 动态 内 容 。 


code/netp/tiny/cgi-bin/adder.c 


一 


#include "csapp.h" 


2 

3 int main(void) { 

4 char *buf, *p; 

5 char argl [MAXLINE], arg2[MAXLINE], content [MAXLINE]; 

6 int ni=0, n2=0; 

7 

8 /* Extract the two arguments */ 

9 if ((buf = getenv("QUERY_STRING")) != NULL) { 

10 P = strchr(buf, '&'); 

11 *p = '\0'; 

12 strcpy(argl, buf); 

13 strcpy(arg2, p+1); 

14 nl = atoi(argl) ; 

15 n2 = atoi(arg2) ; 

16 

17 

18 /* Make the response body */ 

19 sprintf (content, "QUERY_STRING=%s", buf); 

20 sprintf(content, "Welcome to add.com: "); 

21 sprintf(content, "%sTHE Internet addition portal.\r\n<p>", content); 
22 sprintf(content, "%sThe answer is: hd + hd = hd\r\n<p>", 
23 content, ni, n2, nl1 + n2); 
24 sprintf(content, "%sThanks for visiting!\r\n", content); 
25 

26 /* Generate the HTTP response */ 

27 printf("Connection: close\r\n'"); 

28 printf("Content-length: %d\r\n", (int)strlen(content)); 
29 printf("Content-type: text/html\r\n\r\n"); 

30 printf("%s", content); 

31 fflush(stdout): 

32 

33 exit(0); 

34 J} 


code/netp/tiny/cgi-bin/adder.c 
图 11-27 对 两 个 整数 求 和 的 CGI 程序 
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linux> telnet kittyhawk.cmcl.cs.cmu.edu 8000 Client: open connection 
Trying 128.2.194.242... 
Connected to kittyhawk.cmcl.cs.cmu.edu. 
Escape character is '“] '. 
GET /cgi-bin/adder?15000&213 HTTP/1.0 Client: request line 
Client: empty line terminates headers 
HTTP/1.0 200 OK Server: response line 
Server: Tiny Web Server Server: identify server 
Content-length: 115 Adder: expect i115 bytes in response body 
Content-type: text/html Adder: expect HIML im response body 
Adder: empty line terminates headers 
Welcome to add.com: THE Internet addition portal. Adder: first HTIML line 
<p>The answer is: 15000 + 213 = 15213 hddder: second HIML line in response body 
<p>Thanks for visiting! Adder: third HIML Iine in response body 
Connection closed by foreign host. Server: closes connection 


1 
2 
3 
4 
5 
6 
7 
8 


linux> Client: closes connection and terminates 





图 11-28 一 个 提供 动态 HTML 内 容 的 HTTP 事务 


EE 将 HTTP POST 请 求 中 的 参数 传递 给 CGI 程序 
对 于 POST 请 求 ， 子 进程 也 需要 重 定向 标准 输入 到 已 连接 描述 符 。 然 后 ，CGI 程序 
会 从 标准 输入 中 读 取 请 求 主 体 中 的 参数 。 


ES 练习 题 11.5 在 10.11 节 中 ， 我 们 警告 过 你 关于 在 网 络 应 用 中 使 用 C 标准 1/O 函数 的 
危险 。 然 而 ， 图 11-27 中 的 CGI 程序 却 能 没有 任何 问题 地 使 用 标准 IIO。 为 什么 呢 ? 


11.6 综合 : TINY Web 服务 器 


我 们 通过 开发 一 个 虽 小 但 功能 齐全 的 称 为 TINY 的 Web 服务 器 来 结束 对 网 络 编程 的 
讨论 。TINY 是 一 个 有 趣 的 程序 。 在 短 短 250 行 代 码 中 ， 它 结合 了 许多 我 们 已 经 学 习 到 的 
思想 ， 例 如 进程 控制 、Unix I/O、 套 接 字 接口 和 HTTP。 虽 然 它 缺乏 一 个 实际 服务 器 所 具 
备 的 功能 性 、 健 壮 性 和 安全 性 ， 但 是 它 足 够 用 来 为 实际 的 Web 浏览 器 提供 静态 和 动态 的 
内 容 。 我 们 鼓励 你 研究 它 ， 并 且 自 己 实 现 它 。 将 一 个 实际 的 浏览 器 指向 你 自己 的 服务 顺 ， 
看 着 它 显 示 一 个 复杂 的 带 有 文本 和 图 片 的 Web 页 面 ， 真 是 非常 邻 人 兴奋 (甚至 对 我 们 这 些 
作者 来 说 ， 也 是 如 此 !)。 

1. TINY 的 main 程序 

图 11-29 展示 了 TINY 的 主 程序 。TINY 是 一 个 迭代 服务 器 ， 监 听 在 命令 行 中 传递 来 
的 端口 上 的 连接 请 求 。 在 通过 调用 open listenfd 函数 打开 一 个 监听 套 接 字 以 后 ，TINY 
执行 典型 的 无 限 服务 器 循环 ， 不 断 地 接受 连接 请 求 ( 第 32 行 )， 执 行事 务 ( 第 36 行 )， 并 关 
闭 连接 的 它 那 一 端 (第 37 行 )。 

2. doit 函数 

图 11-30 中 的 doit 函数 处 理 一 个 HTTP 事务 。 首 先 ， 我 们 读 和 解析 请 求 行 ( 第 11 一 
14 行 )。 注 意 ， 我 们 使 用 图 11-8 中 的 rio readlineb 因数 读 取 请 求 行 。 

TINY 只 支持 GET 方法 。 如 果 客 户 端 请 求 其 他 方法 (比如 POST)， 我 们 发 送 给 它 一 
个 错误 信息 ， 并 返回 到 主 程序 (第 15 一 19 行 )， 主 程序 随后 关闭 连接 并 等 待 下 一 个 连接 请 
求 。 否 则 ， 我 们 读 并 且 ( 像 我 们 将 要 看 到 的 那样 ) 忽 略 任何 请 求 报头 (第 20 行 )。 
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code/netp/tiny/tiny.c 
1 /* 
2 * tiny.c —- A simple, iterative HTTP/1.0 Web server that uses the 
3 水 GET method to serve static and dynamic content 
4 */ 
5  #include "csapp.h" 
6 
7 void doit(int fd); 
8 void read_requesthdrs(rio_t *rp); 
9 int parse_uri(char *uri, char *filename, char *cgiargs); 
10 void serve_static(int fd, char *filename, int filesize); 
11 void get_filetype(char *filename, char *filetype); 
12 ”void serve_dynamic(int fd, char *filename, char *cgiargs); 
13 void clienterror(int fd, char *cause, char *errnum, 
14 char *shortmsg, char *longmsg); 
15 
16 int main(int argc, char **argVv) 
17 +{ 
18 int listenfd, connfd.; 
19 char hostname [MAXLINE], port [MAXLINE] ; 
20 SOCKlLen _t clientlen,; 
21 struct sockaddr_storage clientaddr ; 
22 
23 /* Check command-line args */ 
24 if (argc != 2) { 
25 fprintf(stderr, "usage: %s <port>\n", argv[0]); 
26 exit(1); 
27 } 
28 
29 listenfd = 0pen_listenfd(Cargv[L1]) ; 
30 while (1) { 
31 clientlen = Sizeof(clientaddr) ; 
32 connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
33 Getnameinfo((SA *) &clientaddr, clientlen, hostname, MAXLINE, 
34 port, MAXLINE, 0); 
35 printf("Accepted connection from (%s, %s)\n", hostname, port); 
36 doit (connfd); 
37 Close(connfd); 
38 } 
39 } 
code/netp/tiny/tiny.c 


图 11-29 TINY Web 服务 器 


然后 ， 我 们 将 URI 解析 为 一 个 文件 名 和 一 个 可 能 为 空 的 CGI 参数 字符 串 ， 并 且 设 置 
一 个 标志 ， 表 明 请 求 的 是 静态 内 容 还 是 动态 内 容 ( 第 23 行 )。 如 果 文 件 在 磁盘 上 不 存在 ， 
我 们 立即 发 送 一 个 错误 信息 给 客户 问 并 返回 。 

最 后 ， 如 果 请 求 的 是 静态 内 容 ， 我 们 就 验证 该 文件 是 一 个 普通 文件 ， 而 我 们 是 有 读 权 
限 的 (第 31 行 )。 如 果 是 这 样 ， 我们 就 向 客户 端 提供 静态 内 容 ( 第 36 行 )。 相 似 地 ， 如 有 果 请 
求 的 是 动态 内 容 ， 我 们 就 验证 该 文件 是 可 执行 文件 (第 39 行 )， 如 果 是 这 样 ， 我 们 就 继续 ， 
并 且 提 供 动 态 内 容 ( 第 44 行 )。 
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code/netp/tiny/tiny.c 
1 void doit(int fd) 
区 总 
3 int is. Static; 
4 struct stat sbuf,; 
5 char buf [MAXLINE], method [MAXLINE], uri [MAXLINE], version [MAXLINE]: 
6 char filename [MAXLINE], cgiargs [MAXLINE]; 
7 全 4203 
8 
9 /* Read request line and headers */ 
10 Rio_readinitb(&rio, fd); 
11 Rio_readlineb(&rio, buf, MAXLINE); 
12 printf ("Request headers:\n"); 
13 printf ("hs", buf); 
14 sscanf (buf, "%s %s %s", method, uri, version); 
15 if (strcasecmp(method, "GET")) { 
16 clienterror(fd, method, "501", "Not implemented", 
17 "Tiny does not implement this method"); 
18 return; 
19 } 
20 read_requesthdrs (&rio); 
21 
22 /* Parse URI from GET request */ 
23 is_static = parse_uri(uri, filename, cgiargs); 
24 if (stat(filename, &sbuf) < 0) { 
25 clienterror(fd, filename, "404", "Not found' ， 
26 "Tiny couldn't find this file"); 
27 return; 
28 下 
29 
30 if (is_static) { /* Serve static content */ 
31 if 〈(!(S_ISREG(sbuf .st_mode)) || !(S_IRUSR & sbuf.st_mode)) 
32 clienterror(fd, filename, "403", "Forbidden', 
33 "Tiny couldn't read the file'); 
34 return; 
35 } 
36 serve_static(fd, filename, sbuf.st_size); 
37 } 
38 else { /* Serve dynamic content */ 
39 if (!(S_ISREG(sbuf .st_mode)) || !(S_IXUSR & sbuf.st_mode)) { 
40 clienterror(fd, filename, "403", "Forbidden", 
41 "Tiny couldn't run the CGI program"); 
42 return; 
43 } 
44 serve_dynamic(fd, filename, cgiargs); 
45 J 
46 } 
code/netp/tiny/tiny.c 


图 11-30 ”TINY doit 处 理 一 个 HTTP 事务 


3. clienterror 函数 

TINY 缺乏 一 个 实际 服务 器 的 许多 错误 处 理 特 性 。 然 而 ， 它 会 检查 一 些 明 显 的 错误 ， 
并 把 它们 报告 给 客户 端 。 图 11-31 中 的 clienterror 函数 发 送 一 个 HTTP 响应 到 客户 端 ， 
在 啊 应 行 中 包含 相应 的 状态 码 和 状态 消息 ， 啊 应 主体 中 包含 一 个 HTML 文件 ， 向 浏览 器 
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的 用 户 解释 这 个 错误 。 


code/netp/tiny/tiny.c 
void clienterror(int fd, char *cause, char *errnum, 
char *shortmsg, char *longmsg) 
{ 
char buf [MAXLINE], body [MAXBUF]; 


/* Build the HTTP response body */ 

sprintf (body, "<html><title>Tiny Error</title>"); 
sprintf(body, "%s<body bgcolor=""ffffff"">\r\n", body); 
sprintf(body, "%s%s: %s\r\n", body, errnum, shortmsg); 

10 sprintf(body, "%s<p>%s: %s\r\n", body, longmsg, cause); 

11 sprintf(body, "%s<hr><em>The Tiny Web server</em>\r\n", body); 


12 

13 /* Print the HTTP response */ 

14 sprintf (buf , "HTTP/1.0 %s %s\r\n", errnum, shortmsg); 

15 Rio writen(fd, buf, strlen(buf)); 

16 sprintf (buf, "Content-type: text/html\r\n'"); 

17 Rio _ writen(fd, buf, strlen(buf)); 

18 sprintf (buf , "Content-length: %d\r\n\r\n", (int)strlen(body)); 
19 Rio_writen(fd, buf, strlen(buf)); 

20 Rio_writen(fd, body, strlen(body)); 

21 } 


code/netp/tiny/tiny.c 
图 11-31 TINY clienterror 向 客户 端 发 送 一 个 出 错 消 息 


回想 一 下 ，HTML 响应 应 该 指明 主体 中 内 容 的 大 小 和 类 型 。 因 此 ， 我 们 选择 创建 
HTML 内 容 为 一 个 字符 串 ， 这 样 一 来 我 们 可 以 简单 地 确定 它 的 大 小 。 还 有 ， 请 注意 我 们 
为 所 有 的 输出 使 用 的 都 是 图 10-4 中 健壮 的 rio _writen 函数 。 

4. read_requesthdrs 函数 

TINY 不 使 用 请 求 报头 中 的 任何 信息 。 它 仅仅 调用 图 11-32 中 的 read requesthdrs 
函数 来 读 取 并 忽略 这 些 报 头 。 注 意 ， 终 止 请 求 报头 的 空 文本 行 是 由 回 车 和 换行 符 对 组 成 
的 ， 我 们 在 第 6 行 中 检查 它 。 


code/netp/tiny/tiny.c 
] void read_requesthdrs (Tio_ 七 *rp) 
六 电 
3 char buf [MAXLINE]; 
4 
5 Rio_readlineb(rp, buf, MAXLINE); 
6 while(strcmp(buf, "\r\n")) 
7 Rio_readlineb(rp, buf, MAXLINE); 
8 printf("%a", buf); 
9 上 
10 return; 
11 
code/netp/tiny/tiny.c 


图 11-32 TINY read requesthdrs 读 取 并 忽略 请 求 报头 
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5. parse_uri 函数 

TINY 假设 静态 内 容 的 主 目录 就 是 它 的 当前 目录 ， 而 可 执行 文件 的 主 目录 是 ./cgi-bin。 
任何 包含 字符 串 cgi-bin 的 URI 都 会 被 认为 表示 的 是 对 动态 内 容 的 请 求 。 默 认 的 文件 名 是 
./Phome .html。 

图 11-33 中 的 parse uri 图 数 实现 了 这 些 策略 。 它 将 URI 解析 为 一 个 文件 名 和 一 个 
可 选 的 CGI 参数 字符 串 。 如 果 请 求 的 是 静态 内 容 ( 第 5 行 )， 我 们 将 清除 CGI 参数 字符 串 
(第 6 行 )， 然 后 将 URI 转换 为 一 个 Linux 相对 路 径 名 ， 例 如 ./index.html( 第 7 一 8 行 )。 
如 果 URI 是 用 “/” 结 尾 的 (第 9 行 )， 我 们 将 把 默认 的 文件 名 加 在 后 面 ( 第 10 行 )。 另 一 方 
面 ， 如 果 请 求 的 是 动态 内 容 ( 第 13 行 )， 我 们 就 会 抽取 出 所 有 的 CGI 参数 (第 14 一 20 行 )， 
并 将 URI 剩 下 的 部 分 转换 为 一 个 Linux 相对 文件 名 (第 21 一 22 行 )。 


code/netp/tiny/tiny.c 
L int parse_uri(char *uri, char *filename, char *cgiargs) 
于 
3 char *ptr; 
4 
5 if (lstrstr(uri, "cgi-bin")) { /* Static content */ 
' strcpy(cgiargs, ""); 
7 strcpy (filename, "."); 
8 strcat (filename, uri); 
9 if (uri[strlen(uri)-1] == '/') 
10 strcat (filename, "home.html"); 
11 return 1; 
12 
13 else { /* Dynamic content */ 
14 ptr = index(uri, '?'); 
15 if (ptr) { 
16 strcpy(cgiargs, ptr+1); 
17 *ptr = '\0'; 
18 } 
19 else 
20 strcpy (cgiargs, ""); 
21 strcpy (filename, "."); 
22 strcat (filename, uri); 
23 return 0; 
24 } 
25 3} 
code/neitp/tiny/tiny.c 
图 11-33 TINY parse uri 解析 一 个 HTTP URI 


6. serve_static 函数 

TINY 提供 五 种 常见 类 型 的 静态 内 容 : HTML 文件 、 无 格式 的 文本 文件 ， 以 及 编码 
为 GIF、PNG 和 JPG 格式 的 图 片 。 

图 11-34 中 的 serve_static 图 数 发 送 一 个 HTTP 啊 应 ， 其 主体 包含 一 个 本 地 文件 的 
内 容 。 首 先 ， 我 们 通过 检查 文件 名 的 后 组 来 判断 文件 类 型 (第 7 行 )， 并 且 发 送 响 应 行 和 响 
应 报头 给 客户 端 (第 8 一 13 行 )。 注 意 用 一 个 空 行 终止 报头 。 
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code/netp/tiny/tiny.c 
1 void serve_static(int fd, char *filename, int filesize) 
2 
3 int Srefad: 
4 char *srcp, filetype[MAXLINE], buf [MAXBUF]; 
5 
6 /* Send response headers to client */ 
7 get_filetype(filename, filetype); 
8 Sprintf(buf , "HTTR/1.0 200 OK\r\a"); 
9 sprintf (buf, "%sServer: Tiny Web Server\r\n", buf); 
10 sprintf (buf, "hsConnection: close\r\n", buf); 
11 sprintf(buf, "%sContent-length: %d\r\n", buf, filesize); 
12 sprintf (buf, "%sContent-type: %s\r\n\r\n", buf, filetype); 
13 Rio writen(fd, buf, strlen(buf)).; 
14 printf ("Response headers:\n'); 
15 printf("%s", buf) ; 
16 
17 /* Send response body to client */ 
18 srcfd = Open(filename, 0_RDONLY, 0); 
19 srcp = Mmap(0, filesize, PROT_READ, MAP_PRIVATE, srcfd, Cj) ; 
20 Close(srcfd) ; 
21 Rio_writen(fd, srcp, filesize); 
22 Munmap (srcp, filesize); 
23 } 
24 
25 /* . 
26 * get_filetype - Derive file type from filename 
27 */ 
28 void get_filetype(char *filename, char *filetype) 
29 { 
30 if (strstr(filename, ".htm]l")) 
31 strcpy (filetype, "text/html'"); 
32 else if (strstr(filename, ".gif")) 
33 strcpy (filetype, "image/gif"); 
34 else if (strstr(filename, ".png")) 
35 strcpy (filetype, "image/png"); 
36 else if (strstr(filename, ".jpg")) 
37 strcpy(filetype, "image/jpeg"); 
38 else 
39 strcpy (filetype, "text/plain'"); 
40 } 
code/netp/tiny/tiny.c 
图 11-34 TINY serve static 为 客户 端 提 供 静 态 内 容 


接着 ， 我 们 将 被 请 求 文件 的 内 容 复 制 到 已 连接 描述 符 fd 来 发 送 啊 应 主体 。 这 里 的 代 
码 是 比较 微妙 的 ， 需 要 仔细 研究 。 第 18 行 以 读 方式 打开 filename， 并 获得 它 的 描述 符 。 
在 第 19 行 ，Linux mmap 好 数 将 被 请 求 文件 映射 到 一 个 虚拟 内 存 空 间 。 回 想 我 们 在 第 9. 8 
节 中 对 mmap 的 讨论 ， 调 用 mmap 将 文件 srcfd 的 前 filesize 个 字 亡 映射 到 一 个 从 地 址 
srcp 开始 的 私有 只 读 虚 拟 内 存 区 域 。 
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一 旦 将 文件 映射 到 内 存 ， 就 不 再 需要 它 的 描述 符 了 ， 所 以 我 们 关闭 这 个 文件 (第 20 
行 )。 执 行 这 项 任务 失败 将 导致 潜在 的 致命 的 内 存 泄漏 。 第 21 行 执行 的 是 到 客户 端的 实际 
文件 传送 。rio writen 函数 复制 从 srcp 位 置 开始 的 filesize 个 字 节 (它们 当然 已 经 被 
映射 到 了 所 请 求 的 文件 ) 到 客户 端的 已 连接 描述 符 。 最 后 ， 第 22 行 释放 了 映射 的 虚拟 内 存 
区 域 。 这 对 于 避免 潜在 的 致命 的 内 存 泄漏 是 很 重要 的 。 

7. serve_dynamic 函数 

TINY 通过 派生 一 个 子 进程 并 在 子 进程 的 上 下 文中 运行 一 个 CGI 程序 ， 来 提供 各 种 类 
型 的 动态 内 容 。 

图 11-35 中 的 serve_dynamic 函数 一 开始 就 问 客 户 端 发 送 一 个 表明 成 功 的 响应 行 ， 
同时 还 包括 高 有 信息 的 Server 报头 。CGI 程序 负责 发 送 响 应 的 剩余 部 分 。 注 意 ， 这 并 不 
像 我 们 可 能 希望 的 那样 健壮 ， 因 为 它 没有 考虑 到 CGI 程序 会 遇 到 某 些 错误 的 可 能 性 。 


code/netp/tiny/tiny.c 
void serve_dynamic(int fd, char *filename, char *cgiargs) 


1 

二 

3 char buf [MAXLINE], *emptylist[] = { NULL }; 

4 

5 /* Return first part of HTTP response */ 

6 sprintf (buf, "HTTP/1.0 200 OK\r\n'"); 

7 Rio_writen(fd, buf, strlen(buf)).; 

8 sprintf (buf, "Server: Tiny Web Server\r\n'); 

9 Rio_writen(fd, buf, strlen(buf)).; 

10 

11 if (Fork() == 0) { /* Child */ 

12 /* Real server would set all CGI vars here */ 

13 setenv("QUERY_STRING", cgiargs, 1); 

14 Dup2(fd，STDOUT_FILENO) ; /* Redirect stdout to client */ 
15 Execve(lfilename, emptylist, environ); /* Run CGI program */ 
16 } 

17 Wait (NULL); /* Parent waits for and reaps child */ 

18 } 


code/netp/tiny/tiny.c 
图 11-35 TINY serve dynamic 为 客户 端 提供 动态 内 容 


在 发 送 了 响应 的 第 一 部 分 后 ， 我 们 会 派生 一 个 新 的 子 进程 (第 11 行 )。 子 进程 用 来 自 
请 求 URI 的 CGI 参数 初始 化 QUERY _ STRING 环境 变量 (第 13 行 )。 注 意 ， 一 个 真正 的 
服务 器 还 会 在 此 处 设置 其 他 的 CGI 环境 变量 。 为 了 简短 ， 我 们 省 略 了 这 一 步 。 

接 下 来 ， 子 进程 重 定向 它 的 标准 输出 到 已 连接 文件 描述 符 ( 第 14 行 )， 然 后 加 载 并 运行 
CGI 程序 (第 15 行 )。 因 为 CGI 程序 运行 在 子 进程 的 上 下 文中 ， 它 能 够 访问 所 有 在 调用 ex- 
ecve 图 数 之 前 就 存在 的 打开 文件 和 环境 变量 。 因 此 ，CGI 程序 写 到 标准 输出 上 的 任何 东西 都 
将 直接 送 到 客户 端 进程 ， 不 会 受到 任何 来 自 父 进程 的 干涉 。 其 间 ， 父 进程 阻塞 在 对 wait 的 
调用 中 ， 等 待 当 子 进程 终止 的 时 候 ， 回 收 操作 系统 分 配给 子 进程 的 资源 (第 17 行 )。 


旁 注 | 处 理 过 早 关 闭 的 连接 

尽管 一 个 Web 服务 器 的 基本 功能 非常 简单 ， 但 是 我 们 不 想 给 你 一 个 假象 ， 以 为 编写 一 个 
实际 的 Web 服务 器 是 非常 简单 的 。 构 造 一 个 长 时 间 运 行 而 不 前 演 的 健壮 的 Web 服务 器 是 一 
件 困难 的 任务 ， 比 起 在 这 里 我 们 已 经 学 习 了 的 内 容 ， 它 要 求 对 Linux 系统 编程 有 更 加 深入 的 


678 第 三 部 分 程序 间 的 交互 和 通信 


理解 。 例 如 ， 如 果 一 个 服务 器 写 一 个 已 经 被 客户 端 关 闭 了 的 连接 (比如 ， 因 为 你 在 浏览 器 上 
单 击 了 “Stop” 按 钮 )， 那 么 第 一 次 这 样 的 写 会 正常 返回 ， 但 是 第 二 次 写 就 会 引起 发 送 SIG- 
PIPE 信号 ， 这 个 信号 的 默认 行为 就 是 终止 这 个 进程 。 如 果 捕 获 或 者 忽略 SIGPIPE 信号 ， 那 
么 第 二 次 写 操作 会 返回 值 一 1， 并 将 errno 设 置 为 EPIPE。strerr 和 perror 函数 将 EPIPE 
错误 报告 为 “Broken pipe"， 这 是 一 个 迷 芒 了 很 多 人 的 不 太 直 观 的 信息 。 总 的 来 说 ， 一 个 健壮 
的 服务 器 必须 捕获 这 些 SIGPIPE 信号 ， 并 且 检 查 write 元 数 调用 是 否 有 EPIPE 错误 。 


11; 7 ”小结 


每 个 网 络 应 用 都 是 基于 客户 端 -服务 器 模型 的 。 根 据 这 个 模型 ， 一 个 应 用 是 由 一 个 服务 器 和 一 个 或 多 
个 客户 端 组 成 的 。 服 务 器 管理 资源 ， 以 某 种 方式 操作 资源 ， 为 它 的 客户 端 提 供 服务 。 客 户 端 -服务 器 模型 
中 的 基本 操作 是 客户 端 -服务 器 事务 ， 它 是 由 客户 端 请 求 和 跟随 其 后 的 服务 器 响应 组 成 的 。 

客户 端 和 服务 融通 过 因特网 这 个 全 球 网 络 来 通信 。 从 程序 员 的 观点 来 看 ， 我 们 可 以 把 因特网 看 成 是 一 个 全 
球 范围 的 主机 集合 ， 具 有 以 下 几 个 属性 : 1) 每 个 因特网 主机 都 有 一 个 唯一 的 32 位 名 字 ， 称 为 它 的 地址 。2) 
IP 地 址 的 集合 被 映射 为 一 个 因特网 域名 的 集合 。3) 不 同 因特网 主机 上 的 进程 能 够 通过 连接 互相 通信 。 

客户 端 和 服务 器 通过 使 用 套 接 字 接 口 建立 连接 。 一 个 套 接 字 是 连接 的 一 个 端点 ， 连 接 以 文件 描述 符 
的 形式 提供 给 应 用 程序 。 套 接 字 接 口 提 供 了 打开 和 关闭 套 接 字 描 述 符 的 函数 。 客 户 端 和 服务 器 通过 读 写 
这 些 描述 符 来 实现 彼此 间 的 通信 。 

Web 服务 器 使 用 HTTP 协议 和 它们 的 客户 端 ( 例 如 浏览 器 ) 彼 此 通信 。 浏 览 器 向 服务 器 请 求 静态 或 者 
动态 的 内 容 。 对 静态 内 容 的 请 求 是 通过 从 服务 器 磁盘 取得 文件 并 把 它 返回 给 客户 端 来 服务 的 。 对 动态 内 
容 的 请 求 是 通过 在 服务 器 上 一 个 子 进程 的 上 下 文中 运行 一 个 程序 并 将 它 的 输出 返回 给 客户 端 来 服务 的 。 
CGI 标准 提供 了 一 组 规则 ， 来 管理 客户 端 如 何 将 程序 参数 传递 给 服务 器 ， 服 务 器 如 何 将 这 些 参数 以 及 其 
他 信息 传递 给 子 进 程 ， 以 及 子 进 程 如 何 将 它 的 输出 发 送 回 客户 端 。 只 用 几 百 行 C 代码 就 能 实现 一 个 简单 
但 是 有 功效 的 Web 服务 器 ， 它 既 可 以 提供 静态 内 容 ， 也 可 以 提供 动态 内 容 。 


参考 文献 说 明 


有 关 因 特 网 的 官方 信息 源 被 保存 在 一 系列 的 可 免费 获取 的 带 编 号 的 文档 中 ， 称 为 RFC(Requests for 
Comments， 请 求 注解 ，Internet 标准 (草案 )) 。 在 以 下 网 站 可 获得 可 搜索 的 RFC 的 索引 : 

http://rfce- editoxr.org 

RFC 通常 是 为 因特网 基础 设施 的 开发 者 编写 的 ， 因 此 ， 对 于 普通 读者 来 说 ， 往 往 过 于 详细 了 。 然 
而 ， 要 想 获 得 权威 信息 ， 没 有 比 它 更 好 的 信息 来 源 了 。HTTP/1.1 协议 记录 在 RFC 2616 中 。MIME 类 
型 的 权威 列表 保存 在 : 

http://www.iana.org/assignments/media-~types 

Kerrisk 是 全 面 Linux 编程 的 圣经 ， 提 供 了 现代 网 络 编程 的 详细 讨论 L62]。 关 于 计算 机 网 络 互 联 有 大 量 
很 好 的 通用 文献 L65，84，114]。 伟 大 的 科技 作家 W. Richard Stevens 编写 了 一 系列 相关 的 经 典 文献 ， 如 高 级 
Unix 编程 L111]、 因 特 网 协议 L109，120，107]， 以 及 Unix 网 络 编程 L108，110]。 认 真 学 习 Unix 系统 编程 
的 学 生 会 想 要 研究 所 有 这 些 内 容 。 不 幸 的 是 ，Stevens 在 1999 年 9 月 1 日 逝世 。 我 们 会 永远 纪 住 他 的 贡献 。 


家 寿 作 业 


** 11.6 A. 修改 TINY 使 得 它 会 原样 返回 每 个 请 求 行 和 请 求 报头 。 
B. 使 用 你 喜欢 的 浏览 器 向 TINY 发 送 一 个 对 静态 内 容 的 请 求 。 把 TINY 的 输出 记录 到 一 个 文件 中 。 
C. 检查 TINY 的 输出 ， 确 定 你 的 浏览 器 使 用 的 HTTP 的 版 本 。 
D. 参考 RFC 2616 中 的 HTTP/1. 1 标准 ,确定 你 的 浏览 器 的 HTTP 请 求 中 每 个 报头 的 含义 。 你 可 
以 从 www.zfc-editor .org/zfc.html 获得 RFC 2616。 
** 11.7 扩展 TINY， 使 得 它 可 以 提供 MPG 视频 文件 。 用 一 个 真正 的 浏览 器 来 检验 你 的 工作 。 


** 11.8 


** 11.9 
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修改 TINY， 使 得 它 在 SIGCHLD 处 理 程序 中 回收 操作 系统 分 配给 CGI 子 进程 的 资源 ， 而 不 是 显 
式 地 等 竺 它们 终止 。 

修改 TINY， 使 得 当 它 服务 静态 内 容 时 ， 使 用 malloc、rio readn 和 rio writen， 而 不 是 mmap 
和 rio_writen 来 复制 被 请 求 文件 到 已 连接 描述 符 。 


"+ 11. 10 A. 写 出 图 11-27 中 CGI adder 函数 的 HTML 表单 。 你 的 表单 应 该 包括 两 个 文本 框 ， 用 户 将 需要 
相 加 的 两 个 数字 填 在 这 两 个 文本 框 中 。 你 的 表单 应 该 使 用 GET 方法 请 求 内 容 。 
B. 用 这 样 的 方法 来 检查 你 的 程序 : 使 用 一 个 真正 的 浏览 器 向 TINY 请 求 表单 ， 向 TINY 提交 填 
写 好 的 表单 ， 然 后 显示 adder 生成 的 动态 内 容 。 
ww 11. 11 扩展 TINY， 以 支持 HTTP HEAD 方 法 。 使 用 TELNET 作为 Web 客户 端 来 验证 你 的 工作 。 
*#11. 12 扩展 TINY， 使 得 它 服务 以 HTTP POST 方式 请 求 的 动态 内 容 。 用 你 喜欢 的 Web 浏览 器 来 验证 你 
的 工作 。 
过 11.13 修改 TINY， 使 得 它 可 以 干净 地 处 理 ( 而 不 是 终止 ) 在 write 困 数 试图 写 一 个 过 早 关 闭 的 连接 时 发 
生 的 SIGPIPE 信号 和 EPIPE 错误 。 
练习 题 答案 


站 本 和 





十 六 进 制 地 址 点 分 十 进 制 地 址 
ao oo 
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Ox7f000001 2 1309 






Oxcdbca079 205 188 160 。 121 
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Oxcdbc9217 205.. L188. 146 .23 


code/netp/hex2dd.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 1 
5 struct in_addr inaddr; /* Address in network byte order */ 
6 uint32_t addr; /* Address in host byte order */ 
7 char buf [MAXBUF] ; /* Buffer for dotted-decimal string */ 
8 
9 if (argc != 2) { 
10 fprintf(stderr, "usage: %s <hex number>\n", argv[0]); 
11 exit(0); 
12 } 
13 sscanf (argv[1], "%x", &addr); 
14 inaddr.s_addr = htonl(addr) ; 
15 
16 if (!inet_ntop(AF_INET, &inaddr, buf, MAXBUF)) 
17 unix_error("inet_ntop"); 
18 printf("%s\n", buf); 
19 
20 exit(0); 
21 } 
code/netp/hex2dd.c 
code/netp/dd2hex.c 


#include "csapp.h" 


1 

2 

3 int main(int argc, char **argv) 
及 


{ 
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struct in_addr inaddr; /* Address in network byte order */ 
tt TG: 


if (argc != 2) { 
fprintf (stderr, "usage: %s <dotted-decimal>\n", argv[0]); 
exit (0); 

} 


rc = inet_pton(AF_INET, argv[i], &inaddr); 
if (rc == 0) 

app_error("inet_pton error: invalid dotted-decimal address"); 
else if (rc < 0) 

unix_error("inet_pton error'"); 


printf ("Ox%x\n", ntohl(inaddr.s_addr)); 
exit (0); 


code/netp/dd2hex.c 


下 面 是 解决 方案 。 注 意 ， 使 用 inet_ntop 要 困难 多 少 ， 它 要 求 很 麻烦 的 强制 类 型 转换 和 座 层 舱 套 
结构 引用 。getnameinfo 函数 要 简单 许多 ， 因 为 它 为 我 们 完成 了 这 些 工作 。 


code/netp/hostinfo-ntop.c 


#include "csapp.h" 


int main(int argc, char **argVv) 


{ 


struct addrinfo *p, *listp, hints; 
struct sockaddr_in *sockp; 

char buf [MAXLINE] ; 

1h FCs 


if (argc != 2) { 
fprintf(stderr, "usage: %s <domain name>\n", argv[0]); 
exit (0); 

} 


/* Get a list of addrinfo records */ 

memset (&hints, 0, sizeof (struct addrinfo)); 

hints.ai_family = AF_INET,; /* IPv4 only */ 

hints.ai_socktype = SOCK_STREAM; /* Connections only */ 

if ((rc = getaddrinfo(argv[1], NULL, &hints, &listp)) != 0) { 
fprintf(stderr, "getaddrinfo error: %hs\n", gai_strerror(rc)); 
exit(1); 

} 


/* Walk the list and display each associated IP address */ 
for (p = listp; p; p = p->ai_next) 1{ 
sockp = (struct sockaddr_in *)p->ai_addr; 
Inet_ntop(AF_INET, &(sockp->sin_addr), buf, MAXLINE); 
printf("%s\n", buf); 


/* Clean up */ 
Freeaddrinfo(listp); 


exit(0); 


code/netp/hostinfo-ntop.c 


标准 I/O 能 在 CGI 程序 里 工作 的 原因 是 ， 在 子 进程 中 运行 的 CGI 程序 不 需要 显 式 地 关闭 它 的 输入 
输出 流 。 当 子 进 程 终止 时 ， 内 核 会 自动 关闭 所 有 描述 符 。 


正如 我 们 在 第 8 章 学 到 的 ， 如 果 人 逻辑 控制 流 在 时 间 上 重 从 ,那么 它们 就 是 并 发 的 
(concurrent) 。 这 种 常见 的 现象 称 为 并 发 (concurrency)， 出 现在 计算 机 系统 的 许多 不 同 层 
面 上 。 硬 件 异 常 处 理 程 序 、 进 程 和 Linux 信号 处 理 程 序 都 是 大 家 很 熟悉 的 例子 。 

到 目前 为 止 ， 我 们 主要 将 并 发 看 做 是 一 种 操作 系统 内 核 用 来 运行 多 个 应 用 程序 的 机 
制 。 但 是 ， 并 发 不 仅仅 局 限于 内 核 。 它 也 可 以 在 应 用 程序 中 扮演 重要 角色 。 例 如 ， 我 们 已 
经 看 到 Linux 信和 号 处 理 程序 如 何 允 许 应 用 啊 应 异步 事件 ， 例 如 用 户 键入 Ctrl 十 C， 或 者 程 
序 访 问 虚 拟 内 存 的 一 个 未 定义 的 区 域 。 应 用 级 并 发 在 其 他 情况 下 也 是 很 有 用 的 : 

e@ 访问 慢 速 IO 设备 。 当 一 个 应 用 正在 等 待 来自 慢 速 IO 设备 (例如 磁盘 ) 的 数据 到 达 

时 ， 内 核 会 运行 其 他 进程 ， 使 CPU 保持 繁忙 。 每 个 应 用 都 可 以 按照 类 似 的 方式 ， 
通过 交替 执行 IO 请 求 和 其 他 有 用 的 工作 来 利用 并 发 。 

e@ 与 人 交互 。 和 计算 机 交互 的 人 要 求 计算 机 有 同时 执行 多 个 任务 的 能 力 。 人 例如， 他们 
在 打印 一 个 文档 时 ， 可 能 想 要 调整 一 个 窗口 的 大 小 。 现 代 视 窗 系统 利用 并 发 来 提供 
这 种 能 力 。 每 次 用 户 请 求 某 种 操作 (比如 通过 单 击 鼠标 ) 时 ， 一 个 独立 的 并 发 逻辑 流 
被 创建 来 执行 这 个 操作 。 

@ 通过 推迟 工作 以 降低 延迟 。 有 时， 应 用 程序 能 够 通过 推迟 其 他 操作 和 并 发 地 执行 它 
们 ， 利 用 并 发 来 降低 某 些 操作 的 延迟 。 比 如 ， 一 个 动态 内 存 分 配器 可 以 通过 推迟 合 
并 ， 把 它 放 到 一 个 运行 在 较 低 优先 级 上 的 并 发 “合并 ” 流 中 ， 在 有 空闲 的 CPU 周 
期 时 充分 利用 这 些 空闲 周期 ， 从 而 降低 单个 free 操作 的 延迟 。 

@ 服务 多 个 网 络 客户 端 。 我 们 在 第 11 章 中 学 习 的 迭 代 网 络 服务 器 是 不 现实 的 ， 因 为 它 
们 一 次 只 能 为 一 个 客户 端 提供 服务 。 因 此 ， 一 个 慢 速 的 客户 端 可 能 会 导致 服务 器 拒绝 
为 所 有 其 他 客户 端 服务 。 对 于 一 个 真正 的 服务 融 来 说 ， 可 能 期 望 它 每 秒 为 成 百 上 千 的 
客户 端 提供 服务 ， 由 于 一 个 慢 速 客户 端 导 致 拒绝 为 其 他 客户 端 服 务 ， 这 是 不 能 接受 
的 。 一 个 更 好 的 方法 是 创建 一 个 并 发 服务 器 ， 它 为 每 个 客户 端 创建 一 个 单独 的 逻辑 
流 。 这 就 允许 服务 右 同 时 为 多 个 客户 端 服务 ， 并 且 也 避免 了 慢 速 客户 端 独 占 服务 器 。 

@ 在 多 核 机 器 上 进行 并 行 计 算 。 许 多 现代 系统 都 配备 多 核 处 理 器 ， 多 核 处 理 器 中 包含 
有 多 个 CPU。 被 划分 成 并 发 流 的 应 用 程序 通常 在 多 核 机 器 上 比 在 单 处 理 紫 机 器 上 运 
行 得 快 ， 因 为 这 些 流 会 并 行 执 行 ， 而 不 是 交错 执行 。 

使 用 应 用 级 并 发 的 应 用 程序 称 为 并 发 程序 (concurrent program)。 现 代 操 作 系 统 提 供 

了 三 种 基本 的 构造 并 发 程序 的 方法 : 

e 进程 。 用 这 种 方法 ， 每 个 逻辑 控制 流 都 是 一 个 进程 ， 由 内 核 来 调度 和 维护 。 因 为 进 
程 有 独立 的 虚拟 地 址 空间 ， 想 要 和 其 他 流通 信 ， 控 制 流 必须 使 用 某 种 显 式 的 进程 间 
通信 (interprocess communication，IPC) 机 制 。 

e IJ/O 多 路 复 用 。 在 这 种 形式 的 并 发 编程 中 ， 应 用 程序 在 一 个 进程 的 上 下 文中 显 式 地 
调度 它们 目 己 的 逻辑 流 。 逻 辑 流 被 模型 化 为 状态 机 ， 数 据 到 达 文 件 描述 符 后 ， 主 程 
序 显 式 地 从 一 个 状态 转换 到 另 一 个 状态 。 因 为 程序 是 一 个 单独 的 进程 ， 所 以 所 有 的 
流 都 共享 同一 个 地 址 空间 。 





682 第 三 部 分 程序 间 的 交互 和 通信 


e 线程 。 线 程 是 运行 在 一 个 单一 进程 上 下 文中 的 逻辑 流 ， 由 内 核 进行 调度 。 你 可 以 把 
线程 看 成 是 其 他 两 种 方式 的 混合 体 ， 像 进程 流 一 样 由 内 核 进行 调度 ， 而 像 IO 多 路 
复 用 流 一 样 共享 同一 个 虚拟 地 址 空间 。 
本 章 研 究 这 三 种 不 同 的 并 发 编程 技术 。 为 了 使 我 们 的 讨论 比较 具体 ， 我 们 始终 以 同一 
个 应 用 为 例 一 一 11. 4. 9 布 中 的 迭代 echo 服务 仑 的 并 发 版 本 。 


12. 1 基于 进程 的 并 发 编程 


构造 并 发 程序 最 简单 的 方法 就 是 用 进程 ， 使 用 那些 大 家 都 很 熟悉 的 函数 ， 像 fork、 
exec 和 waitpida。 例 如 ， 一 个 构造 并 发 服务 器 的 自然 方法 就 是 ， 在 父 进程 中 接受 客户 端 
连接 请 求 ， 然 后 创建 一 个 新 的 子 进程 来 为 每 个 新 客户 端 提供 服务 。 

为 了 了 解 这 是 如 何 工 作 的 ， 假 设 我 们 有 两 个 客户 端 和 一 个 服务 万 ， 服 务 耸 正在 监听 一 
个 监听 描述 符 ( 比 如 指 述 符 3) 上 的 连接 请 求 。 现 在 假设 服务 器 接受 了 客户 端 1 的 连接 请 求 ， 
并 返回 一 个 已 连接 描述 符 ( 比 如 指 述 符 4) ， 如 图 12-1 所 示 。 在 接受 连接 请 求 之 后 ， 服 务 需 
派生 一 个 子 进程 ， 这 个 子 进程 获得 服务 器 描述 符 表 的 完整 副本 。 子 进程 关闭 它 的 副本 中 的 
监听 描述 符 3， 而 父 进程 关闭 它 的 已 连接 描述 符 4 的 副本 ， 因 为 不 再 需要 这 些 描述 符 了 。 
这 就 得 到 了 图 12-2 中 的 状态 ， 其 中 子 进程 正 忙于 为 客户 问 提 供 服务 。 


clientfd .listenfd(3) 









数据 传送 connfd(4) 


] 服务 器 clientfd es 
服务 器 
connfd(4) 
clientfqd clientfad 


图 12-1 第 一 步 服务 器 接受 客户 端的 连接 请 求 ” 图 12-2 第 二 步 : 服务 器 派生 一 个 子 进程 为 这 个 客户 端 服务 

因为 父 、 子 进程 中 的 已 连接 描述 符 都 指向 同一 个 文件 表 表 项 ， 所 以 父 进 程 关 闭 它 的 已 
连接 描述 符 的 副本 是 至 关 重 要 的 。 否 则 ， 将 永 不 会 释放 已 连接 描述 符 4 的 文件 表 条 目 ， 而 
且 由 此 引起 的 内 存 泄漏 将 最 终 消 耗 光 可 用 的 内 存 ， 使 系统 月 浊 。 

现在 ， 假 设 在 父 进程 为 客户 端 1 创建 了 子 进 程 之 后 ， 它 接受 一 个 新 的 客户 端 2 的 连接 请 
求 ， 并 返回 一 个 新 的 已 连接 描述 符 ( 比 如 描述 符 5) ， 如 图 12-3 所 示 。 然 后 ， 父 进程 又 派生 为 
一 个 子 进程 ， 这 个 子 进程 用 已 连接 描述 符 5 为 它 的 客户 端 提 供 服 务 ， 如 图 12-4 所 示 。 此 时 ， 
父 进程 正在 等 待 下 一 个 连接 请 求 ， 而 两 个 子 进程 正在 并 发 地 为 它们 各 目的 客户 端 提 供 服务 。 
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图 12-3 第 三 步 : 服务 器 接受 另 一 个 连接 请 求 ”图 12-4 第 四 步 : 服务 器 派生 另 一 个 子 进 程 为 新 的 客户 端 服务 


2. ls 


12-5 展示 了 一 个 基于 进程 的 并 发 echo 服务 器 的 代码 。 第 29 行 调 用 的 echo 函数 来 
自 于 图 11-21。 关 于 这 个 服务 器 ， 有 几 点 重要 内 容 需 要 说 明 : 
e 首先 ， 通 常服 务 器 会 运行 很 长 的 时 间 ， 所 以 我 们 必须 要 包括 一 个 SIGCHLD 处 理 程 


ON 人 OW ww NI 一 


序 ， 


执行 时 ，SIGCHLD 信号 是 阻塞 的 ， 而 Linux 信号 是 不 排队 的 ， 所 以 SIGCHLD 处 
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基于 进程 的 并 发 服务 兹 


来 回收 僵 死 (zombie) 子 进程 的 资源 (第 4 一 9 行 )。 因 为 当 SIGCHLD 处 理 程序 


理 程序 必须 准备 好 回收 多 个 僵 死 子 进程 的 资源 。 
e 其 次 ， 父 子 进 程 必须 关闭 它们 各 自 的 connfd( 分 别 为 第 33 行 和 第 30 行 ) 副 本 。 就 
像 我 们 已 经 提 到 过 的 ， 这 对 父 进程 而 言 尤 为 重要 ， 它 必须 关闭 它 的 已 连接 描述 符 ， 


以 避免 内 存 泄 漏 。 
e 最 后 ， 因 为 套 接 字 的 文件 表 表 项 中 的 引用 计数 ， 直 到 父子 进程 的 connfd 都 关闭 了 ， 
到 客户 并 的 连接 才 会 终止 。 


code/conc/echoserverp.c 


#include "csapp.h" 
void echo(int connfd) ; 


void sigchld_handler(int sig) 


{ 


int 


while (waitpid(-1, 0, WNOHANG) > 0) 


和 
return,; 


main(int argc, char **argVv) 


int listenfd, connfd.; 
socklen t clientlen; 
struct sockaddr_storage clientaddr; 


if (argc != 2) { 
fprintf(stderr, "usage: %s 《port>N\n'"，argv[0] ) ; 
exXit(O) ; 

3 


Signal (SIGCHLD, sigchld_handler); 
listenfd = 0pen_listenfd(argv[L1] ) ; 
while (1) { 
clientlen = sizeof(struct sockaddr_storage); 
connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
if (Fork() == 0) +{ 
Close(listenfd); /* Child closes its listening socket */ 


echo(Cconnfd) ; /* Child services client */ 
Close(connfd); /* Child closes connection with client */ 
exit(0); /* Child exits */ 


Close(connfd); /* Parent closes connected socket (important!) */ 


OOOO code/conc/echoserverp.e 


图 12-5 ”基于 进程 的 并 发 echo 服务 器 。 父 进程 派生 一 个 子 进程 来 处 理 每 个 新 的 连接 请 求 
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12. 1.2 进程 的 优 劣 

对 于 在 父 、 子 进程 间 共 享 状态 信息 ， 进 程 有 一 个 非常 清晰 的 模型 . 共享 文件 表 ， 但 是 不 共 
享用 户 地 址 空间 。 进 程 有 独立 的 地 址 空间 既是 优点 也 是 缺点 。 这 样 一 来 ， 一 个 进程 不 可 能 不 小 
心 覆 盖 男 一 个 进程 的 虚拟 内 存 ， 这 就 消除 了 许多 令 人 迷惑 的 错误 一 一 这 是 一 个 明显 的 优点 。 

男 一 方面 ， 独 立 的 地 址 空间 使 得 进程 共享 状态 信息 变 得 更 加 困难 。 为 了 共享 信息 ， 它 
们 必须 使 用 显 式 的 IPC( 进 程 间 通信 ) 机 制 。( 参 见 下 面 的 旁 注 ,) 基 于 进程 的 设计 的 另 一 个 
缺点 是 ， 它 们 往往 比较 慢 ， 因 为 进程 控制 和 IPC 的 开销 很 高 。 


旁 注 | Unix IPC 

在 本 书 中 ， 你 已 经 遇 到 好 几 个 IPC 的 例子 了 。 第 8 章 中 的 waitpid 函数 和 信号 是 
基本 的 IPC 机 制 ， 它 们 允许 进程 发 送 小 消息 到 同一 主机 上 的 其 他 进程 。 第 11 章 的 套 接 
字 接 口 是 IPC 的 一 种 重要 形式 ， 它 允许 不 同 主 机 上 的 进程 交换 任意 的 字 节 流 。 然 而 ， 术 
语 Unix IPC 通常 指 的 是 所 有 允许 进程 和 同一 台 主 机 上 其 他 进程 进行 通信 的 技术 。 其 中 
包括 管道 、 先 进 先 出 (FIFO)、 系 统 V 共享 内 存 ， 以 及 系统 V 信号 量 (semaphore)。 这 
些 机 制 超出 了 我 们 的 讨论 范围 。Kerrisk 的 著作 [62 | 是 很 好 的 参考 资料 。 


世纪 练习 题 12. 1 在 图 12-5 中 ， 并 发 服务 器 的 第 33 行 上 ， 父 进程 关闭 了 已 连接 描述 符 
后 ， 子 进程 仍然 能 够 使 用 该 描述 符 和 客户 端 通信 。 为 什么 ? 

区 吧 练习 题 12.2 如 果 我 们 要 删除 图 12-5 中 关闭 已 连接 描述 符 的 第 30 行 ， 从 设 有 内 存 污 
漏 的 角度 来 说 ， 代 码 将 仍然 是 正确 的 。 为 什么 ? 


12.2 基于 IMO 多 路 复 用 的 并 发 编程 

假设 要 求 你 编写 一 个 echo 服务 器 ， 它 也 能 对 用 户 从 标准 输入 键入 的 交互 命令 做 出 啊 
应 。 在 这 种 情况 下 ， 服 务 器 必须 响应 两 个 互相 独立 的 I/O 事件 : 1) 网 络 客户 端 发 起 连接 请 
求 ，2) 用 户 在 键盘 上 键入 命令 行 。 我 们 先 等 待 哪个 事件 呢 ? 没有 哪个 选择 是 理想 的 。 如 果 
在 accept 中 等 待 一 个 连接 请 求 ， 我 们 就 不 能 啊 应 输入 的 命令 。 类 似 地 ， 如 果 在 read 中 
等 竺 一 个 输入 命令 ， 我 们 就 不 能 啊 应 任何 连接 请 求 。 

针对 这 种 困境 的 一 个 解决 办 法 就 是 IO 多 路 复 用 (IO multiplexing) 技 术 。 基 本 的 思 
路 就 是 使 用 select 函数 ， 要 求 内 核 挂 起 进程 ， 只 有 在 一 个 或 多 个 1/O 事件 发 生 后 ， 才 将 
控制 返回 给 应 用 程序 ， 就 像 在 下 面 的 示例 中 一 样 : 

e 当 集 合 {0，4}) 中 任意 描述 符 准备 好 读 时 返回 。 

e 当 集 合 {1，2，7} 中 任意 描述 符 准 备 好 写 时 返回 。 

e 如 果 在 等 待 一 个 I/O 事件 发 生 时 过 了 152. 13 秒 ， 就 超时 。 

select 是 一 个 复杂 的 函数 ， 有 许多 不 同 的 使 用 场景 。 我 们 将 只 讨论 第 一 种 场景 : 等 
待 一 组 描述 符 准 备 好 读 。 全 面 的 讨论 请 参考 [62，110]。 


#include <sys/select.h> 
int select(int n, fd_set *fdset, NULL, NULL, NULL):; 

返回 已 准备 好 的 描述 符 的 非 零 的 个 数 ， 若 出 错 则 为 一 1。 
FD_ZERO(fd_set *fdset); /* Clear all bits in fdset */ 


FD_SET(int fd, fd_set *fdset); /* Turn on bit fd in fdset */ 
FD_ISSET(int fd, fd_set *fdset); /* Is bit fd in fdset on? */ 


处 理 描述 符 集合 的 宏 。 


FD_CLR(int fd, fd_set *fdset);: /* Clear bit fd in fdset */ 
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select 图 数 处 理 类 型 为 fd_set 的 集合 ， 也 叫做 描述 符 集 合 。 逻 辑 上 ， 我 们 将 描述 符 

集合 看 成 一 个 大 小 为 n 的 位 癌 量 (在 2. 1 节 中 介绍 过 ) : 
We 

每 个 位 b 对 应 于 描述 符 k&。 当 上 且 仅 当 6b 二 1， 描 述 符 & 才 表明 是 描述 符 集 合 的 一 个 元 素 。 只 
允许 你 对 描述 符 集 合 做 三 件 事 : 1) 分 配 它 们 ，2) 将 一 个 此 种 类 型 的 变量 赋值 给 另 一 个 变 
量 ，3) 用 FD ZERO、FD SET、FD CLR 和 FD ISSET 宏 来 修改 和 检查 它们 。 

针对 我 们 的 目的 ，select 图 数 有 两 个 输入 : 一 个 称 为 读 集合 的 描述 符 集合 (fdset) 
和 该 读 集合 的 基数 (n) (实际 上 是 任何 描述 符 集合 的 最 大 基数 )。select 图 数 会 一 直 阻 塞 ， 
直到 读 集 合 中 至 少 有 一 个 描述 符 准 备 好 可 以 读 。 当 且 仅 当 一 个 从 该 描述 符 读 取 一 个 字 节 的 
请 求 不 会 阻塞 时 ， 描 述 符 & 就 表示 准备 好 可 以 读 了 。select 有 一 个 副作用 ， 它 修改 参数 
fdset 指向 的 fq_set， 指 明 读 集合 的 一 个 子 集 ， 称 为 准备 好 集合 (ready set)， 这 个 集合 
是 由 读 集合 中 准备 好 可 以 读 了 的 描述 符 组 成 的 。 该 水 数 返回 的 值 指明 了 准备 好 集合 的 基 
数 。 注 意 ， 由 于 这 个 副作用 ， 我 们 必须 在 每 次 调用 select 时 都 更 新 读 集合 。 

理解 select 的 最 好 办 法 是 研究 一 个 具体 例子 。 图 12-6 展示 了 可 以 如 何 利 用 select 
来 实现 一 个 迭代 echo 服务 姻 ， 它 也 可 以 接受 标准 输入 上 的 用 户 命 令 。 一 开始 ， 我 们 用 
图 11-19 中 的 open listenfd 函数 打开 一 个 监听 描述 符 ( 第 16 行 )， 然 后 使 用 FD_ZERO 
创建 一 个 空 的 读 集合 (第 18 行 ): 

listenfd stdin 
3 2 | 0 


read_set ( 引 ) : OO|101910 


接 下 来 ， 在 第 19 和 20 行 中 ， 我 们 定义 由 描述 符 0( 标 准 输入 ) 和 描述 符 3( 监 听 描 述 
符 ) 组 成 的 读 集 合 ， 
listenfd stdin 
3 志 1 0 


read_set ({0, 3}): LL | 


在 这 里 ， 我 们 开始 典型 的 服务 需 循 环 。 但 是 我 们 不 调用 accept 函数 来 等 待 一 个 连接 
请 求 ， 而 是 调用 select 函数 ， 这 个 困 数 会 一 直 阻 塞 ， 直 到 监听 描述 符 或 者 标准 输入 准备 
好 可 以 读 ( 第 24 行 )。 例 如 ， 下 面 是 当 用 户 按 回 车 键 ， 因 此 使 得 标准 输入 描述 符 变 为 可 读 
时 ，select 会 返回 的 ready set 的 值 : 


listenfd stdin 
2 1 0 


ready_set ({0}): ll 


一 且 select 返回 ， 我 们 就 用 FD _ ISSET 宏 指 令 来 确定 哪个 描述 符 准 备 好 可 以 读 了 。 
如 果 是 标准 输入 准备 好 了 (第 25 行 )， 我 们 就 调用 command 图 数 ， 该 郴 数 在 返回 到 主 程序 
前 ， 会 读 、 解 析 和 响应 命令 。 如 果 是 监听 描述 符 准 备 好 了 (第 27 行 )， 我 们 就 调用 accept 
来 得 到 一 个 已 连接 描述 符 ， 然 后 调用 图 11-22 中 的 echo 函数 ， 它 会 将 来 自 客户 端的 每 一 
行 又 回 送 回去 ， 直 到 客户 器 关闭 这 个 连接 中 它 的 那 一 端 。 

虽然 这 个 程序 是 使 用 select 的 一 个 很 好 示例 ， 但 是 它 仍然 留 下 了 一 些 问题 待 解决 。 问 
题 是 一 旦 它 连 接 到 某 个 客户 问 ， 就 会 连续 回 送 输入 行 ， 直 到 客户 端 关 闭 这 个 连接 中 它 的 那 一 
端 。 因 此 ， 如 果 键 入 一 个 命令 到 标准 输入 ， 你 将 不 会 得 到 响应 ， 直 到 服务 器 和 客户 端 之 间 结 
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束 。 一 个 更 好 的 方法 是 更 细 粒 度 的 多 路 复 用 ， 服 务 器 每 次 循环 (至 多 ) 回 送 一 个 文本 行 。 


code/conc/select.c 
1 #include "csapp.h" 
2 void echo(int connfd); 
3 void command(void) ; 
4 
5 int main(int argc, char **argv) 
-| 
7 int listenfd, connfd.; 
8 socklen_t clientlen; 
9 struct sockaddr_storage clientaddr; 
10 fd_set read_set, ready_set; 
11 
12 if (argc != 2) { 
13 fprintf(stderr, "usage: %s <port>\n", argv[0]); 
14 exit(0); 
15 » 
16 listenfd = Open_listenfd(argvl1]); 
17 
18 FD_ZERO(&read_set); /* Clear read set */ 
19 FD_SET(STDIN_FILENO, &read_set); /* Add stdin to read set */ 
20 FD_SET(listenfd, &read _ set); /* Add listenfd to read set */ 
21 
22 While (1) { 
23 ready_set = read_set; 
24 Select(listenfd+1, &ready_set, NULL, NULL, NULL):; 
25 if (FD_ISSET(STDIN_FILENO, &ready_set)) 
26 command(); /* Read command line from stdin */ 
27 if (FD_ISSET(listenfd, &ready_set)) { 
28 clientlen = sizeof(struct sockaddr._storage); 
29 connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
30 echo(connfd); /* Echo client input until EOF */ 
31 Close (connfd); 
32 上 
33 } 
34 
35 
36 void command(void) { 
37 char buf [MAXLINE] ; 
38 if (!IFgets(buf, MAXLINE, stdin)) 
39 exit(0); /* EOF */ 
40 printf("%s", buf); /* Process the input command */ 
41 } 


code/conc/select.c 
图 12-6 ”使 用 I/O 多 路 复 用 的 迁 代 echo 服务 器 。 服 务 器 使 用 select 
等 待 监听 描述 符 上 的 连接 请 求 和 标准 输入 上 的 命令 
有 练习 题 12. 3 在 Linux 系统 里 ， 在 标准 输入 上 键入 Ctrl 十 D 表示 EOF。 图 12-6 中 的 
程序 阻塞 在 对 select 的 调用 上 时 ， 如 果 你 键入 Ctrl 十 D 会 发 生 什 么 ? 


12.2.1 基于 1/0O 多 路 复 用 的 并 发 事件 驱动 服务 器 


I/O 多 路 复 用 可 以 用 做 并 发 事件 驱动 (event-driven) 程 序 的 基础 ， 在 事件 驱动 程序 中 ， 
某 些 事件 会 导致 流 回 前 推进 。 一 般 的 思路 是 将 逻辑 流 模型 化 为 状态 机 。 不 严格 地 说 ， 一 个 
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状态 机 (state machine) 就 是 一 组 状态 (state)、 输 入 事件 (input event) 和 转移 (transition)， 
其 中 转移 是 将 状态 和 输入 事件 映射 到 状态 。 每 个 转移 是 将 一 个 (输入 状态 ， 输 入 事件 ) 对 映 
射 到 一 个 输出 状态 。 自 循环 (self-loop) 是 同一 输入 和 输出 状态 之 间 的 转移 。 通 向 把 状态 机 
画 成 有 向 图 ， 其 中 节点 表示 状态 ， 有 同 弧 表示 转移 ， 而 弧 上 的 标号 表示 输入 事件 。 一 个 状 
态 机 从 某 种 初始 状态 开始 执行 。 每 个 输入 事件 都 会 引发 一 个 从 当前 状态 到 下 一 状态 的 
转移 。 

对 于 每 个 新 的 客户 端 &， 基 于 I/O 〇 多 路 ”输入 事件 : “描述 符 
复 用 的 并 发 服务 器 会 创建 一 个 新 的 状态 机 准备 好 可 以 读 卫 
st:， 并 将 它 和 已 连接 描述 符 改 联 系 起 来 。 如 
图 12-7 所 示 ， 每 个 状态 机 5 都 有 一 个 状态 
(“等 待 描 述 符 di 准备 好 可 读 ”)、 一 个 输入 事 
件 (“ 描 述 符 di 准备 好 可 以 读 了 ”) 和 一 个 转移 
(“从 描述 符 di 读 一 个 文本 行 ”)。 图 12.7 ”并 发 事件 驱动 echo 服务 器 中 逻辑 流 的 状态 机 

服务 器 使 用 1/O 多 路 复 用 ,借助 select 函数 检测 输入 事件 的 发 生 。 当 每 个 已 连接 摘 
述 符 准 备 好 可 读 时 ， 服 务 需 就 为 相应 的 状态 机 执行 转移 ， 在 这 里 就 是 从 描述 符 读 和 写 回 一 
个 文本 行 。 

图 12-8 展示 了 一 个 基于 1/O 多 路 复 用 的 并 发 事件 驱动 服务 器 的 完整 示例 代码 。 一 个 
pool 结构 里 维护 着 活动 客户 端的 集合 (第 3 一 11 行 )。 在 调用 init pool 初始 化 池 (第 27 
行 ) 之 后 ， 服 务 右 进入 一 个 无 限 循环 。 在 循环 的 每 次 迭代 中 ,服务器 调用 select 子 数 来 
检测 两 种 不 同类 型 的 输入 事件 : a) 来 自 一 个 新 客户 端的 连接 请 求 到 达 ，b) 一 个 已 存在 的 客 
户 端的 已 连接 描述 符 准备 好 可 以 读 了 。 当 一 个 连接 请 求 到 达 时 (第 35 行 )， 服 务 顺 打开 连 
接 ( 第 37 行 )， 并 调用 add client 函数 ， 将 该 客户 端 添加 到 池 里 (第 38 行 )。 最 后 ， 服 务 
器 调用 check clients 图 数 ， 把 来 自 每 个 准备 好 的 已 连接 描述 符 的 一 个 文本 行 回 送 回 去 
(第 42 行 )。 








转移 : “从 描述 符 
4 读 一 个 文本 行 ” 


不 准 备 好 可 读 


code/conc/echoservers.c 
1 #include "csapp.h" 
2 
3 typedef struct { /* Represents a pool of connected descriptors */ 
4 int maxfd; /* Largest descriptor in read_set */ 
5 fd_set read_set; /* Set of all active descriptors */ 
6 fd_set ready_set; /* Subset of descriptors ready for reading */ 
7 int nready; /* Number of ready descriptors from select */ 
8 int maxi; /* High water index into client array */ 
9 int clientfd[FD_SETSIZE] ; /* Set of active descriptors */ 
10 rio_t clientrio[FD_SETSIZE]; /* Set of active read buffers */ 
11 } Pool ; 
12 
13 int byte_cnt = 0; /* Counts total bytes received by server */ 
14 
15 int main(int argc, char **argVv) 
[| 
17 int listenfd, connfd; 
18 socklen.t clientlen,; 
19 struct sockaddr_storage clientaddr; 


图 12-8 ”基于 1/O 多 路 复 用 的 并 发 echo 服务 器 。 每 次 服务 器 迭代 
都 回 送 来 自 每 个 准备 好 的 描述 符 的 文本 行 
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static pool pool; 


if (argc != 2) 1{ 


和 


fprintf(stderr, "usage: %s <port>\n", argv[0]); 
exit (0); 


listenfd = Open_listenfd(argv[1]); 
init_pool(listenfd, &pool); 


while (1) { 


/* Wait for listening/connected descriptor(s) to become ready */ 
pool.ready_set = pool.read_set,; 
pool.nready = Select(pool.maxfd+1, &pool.ready_set, NULL, NULL, NULL); 


/* If listening descriptor ready, add new client to pool */ 
if (FD_ISSET(listenfd, &pool.ready_set)) { 
clientlen = sizeof(struct Sockaddr_storage) ; 
connfd = Accept(listenfd, (SA *)&clientaddr, &clientlen); 
add_client(connfd, &pool); 
} 


/* Echo a text line from each ready connected descriptor */ 
check_clients(&pool); , 


code/conc/echoservers.c 


图 12-8 【《 续 ) 


init pool 函数 (图 12-9) 初 始 化 客户 端 池 。clientfq 数组 表示 已 连接 描述 符 的 集 
其 中 整数 一 1 表示 一 个 可 用 的 槽 位 。 初 始 时 ,已 连接 描述 符 集合 是 空 的 (第 5 一 7 行 )， 
而 且 监 听 描 述 符 是 select 读 集 合 中 唯一 的 描述 符 ( 第 10 一 12 行 )。 


code/conc/echoservers.c 


void init_pool(int listenfd, pool *p) 


{ 


/* Initially, there are no connected descriptors */ 
nt 二 
p->maxi = -1; 
for (i=0; i< FD_SETSIZE; i++) 
p->clientfd[i] = -1; 


/* Initially, listenfd is only member of select read set */ 
p->maxfd = listenfd.; 

FD_ZERO(&p->read_set); 

FD_SET(listenfd, &p->read_set); 


code/conc/echoservers.c 


图 12-9 init pool 初始 化 活动 客户 端 池 


add_client 困 数 (图 12-10) 添 加 一 个 新 的 客户 端 到 活动 客户 端 池 中 。 在 clientfd 
数组 中 找到 一 个 空 横 位 后 ， 服 务 右 将 这 个 已 连接 描述 符 添加 到 数组 中 ， 并 初始 化 相应 的 
RIO 读 缓冲 区 ， 这 样 一 来 我 们 就 能 够 对 这 个 描述 符 调用 rio readlineb( 第 8 一 9 行 )。 然 
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后 ， 我 们 将 这 个 已 连接 描述 符 添 加 到 select 读 集 合 ( 第 12 行 )， 并 更 新 该 池 的 一 些 全 局 属 
性 。maxfa 变 量 ( 第 15 一 16 行 ) 记 录 了 select 的 最 大 文件 描述 符 。maxi 变量 (第 17 一 18 
行 ) 记 录 的 是 到 clientfd 数组 的 最 大 索引 ， 这 样 check clients 函数 就 无 需 搜索 整个 数 
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code/conc/echoservers.c 
void add_client(int connfd, pool *p) 
i 
nt 1 
p->nready-—-—; 
for (i = 0; i < FD_SETSIZE; i++) /* Find an available slot */ 
if (p->clientfd[i] < 0) { 
/* Add connected descriptor to the pool */ 
p->clientfdl[li] = connfd; 
Rio_readinitb(&p->clientrio[i] ，connfd) ; 
/* Add the descriptor to descriptor set */ 
FD_SET(connfd, &p->read_set); 
/* Update max descriptor and pool high water mark */ 
if (connfd > p->maxfd) 
p->maxfd = Connfd ; 
if (i > p->maxi) 
p~>maxi = 1i; 
break; 
} 
if (i == FD_SETSIZE) /* Couldn't find an empty slot */ 
app_error("add_client error: Too many clients"); 
} 


code/conc/echoservers.c 


图 12-10 ”adqd client 向 池 中 添加 一 个 新 的 客户 端 连 接 


图 12-11 中 的 check clients 图 数 回 送 来 目 每 个 准备 好 的 已 连接 描述 符 的 一 个 文本 行 。 
如 果 成 功 地 从 描述 符 读 取 了 一 个 文本 行 ， 那 么 就 将 该 文本 行 回 送 到 客户 端 (第 15 一 18 行 )。 
注意 ， 在 第 15 行 我 们 维护 着 一 个 从 所 有 客户 端 接收 到 的 全 部 字 节 的 累计 值 。 如 果 因 为 客 
户 端 关闭 这 个 连接 中 它 的 那 一 端 ， 检 测 到 EOF， 那 么 将 关闭 这 边 的 连接 端 ( 第 23 行 )， 并 
从 池 中 清除 掉 这 个 描述 符 ( 第 24 一 25 行 )。 

根据 图 12-7 中 的 有 限 状 态 模型 ，select 函数 检测 到 输入 事件 ， 而 adqd_client 郴 数 
创建 一 个 新 的 逻辑 流 ( 状 态 机 )。check _ clients 图 数 回 送 输入 行 ， 从 而 执行 状态 转移 ， 
而 且 当 客户 端 完 成 文本 行 发 送 时 ， 它 还 要 删除 这 个 状态 机 。 
芭 s 练习 题 12.4 图 12-8 所 示 的 服务 器 中 ， 我 们 在 每 次 调用 select 之 前 都 立即 小 心地 

重新 初始 化 pool.ready set 变量 。 为 什么 ? 


臣 事件 驱动 的 Web 服务 器 

尽管 有 12.2.2 节 中 说 明 的 缺点 ， 现 代 高 性 能 服务 器 (例如 Node.js、nginx 和 Tor- 
nado) 使 用 的 都 是 基于 I/O 多 路 复 用 的 事件 驱动 的 编程 方式 ， 主 要 是 因为 相 比 于 进程 和 
线程 的 方式 ， 它 有 明显 的 性 能 优势 。 
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code/conc/echoservers.c 


1 void check_clients(pool *p) 

2 1 

3 int 主 connfd, mw: 

4 char buf [MAXLINE] ; 

5 Yio t F100s 

6 

7 for (i = 0; (i <= p->maxi) && (p->nready > 0); i++) { 

8 connfd = p->clientfd[il]; 

9 rio = p->clientrio[i]; 

10 

11 /* If the descriptor is ready, echo a text line from it */ 
12 if ((connfd > 0) && (FD_ISSET(connfd, &p->ready_set))) { 
13 p->nready—-—; 

14 if ((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
15 byte_cnt += 1; 

16 printf("Server received %d (%d total) bytes on fd %d\n", 
17 n, byte_cnt, connfd); 

18 Rio writen(connfd, buf, n); 

19 } 

20 

21 /* EOF detected, remove descriptor from pool */ 

22 else + 

23 Close(connfd); 

24 FD_CLR(connfd, &p->read_set); 

25 p->clientfdl[i] = -1; 

26 } 

27 } 

28 J 

29 } 


code/conc/echoservers.c 


图 12-11 check clients 服务 准备 好 的 客户 端 连接 


12.2.2 I/O 多 路 复 用 技术 的 优 劣 


图 12-8 中 的 服务 器 提供 了 一 个 很 好 的 基于 I/O 多 路 复 用 的 事件 驱动 编程 的 优 缺 点 示 
例 。 事 件 驱 动 设计 的 一 个 优点 是 ， 它 比 基 于 进程 的 设计 给 了 程序 员 更 多 的 对 程序 行为 的 控 
制 。 例 如 ， 我 们 可 以 设想 编写 一 个 事件 驱动 的 并 发 服务 器 ， 为 某 些 客户 端 提供 它们 需要 的 
服务 ， 而 这 对 于 基于 进程 的 并 发 服务 器 来 说 ， 是 很 困难 的 。 

另 一 个 优点 是 ， 一 个 基于 1/O 多 路 复 用 的 事件 驱动 服务 器 是 运行 在 单一 进程 上 下 文中 
的 ， 因 此 每 个 逻辑 流 都 能 访问 该 进程 的 全 部 地 址 空间 。 这 使 得 在 流 之 间 共 享 数 据 变 得 很 容 
易 。 一 个 与 作为 单个 进程 运行 相关 的 优点 是 ， 你 可 以 利用 熟悉 的 调试 工具 ， 例 如 GDB， 
来 调试 你 的 并 发 服务 器 ， 就 像 对 顺序 程序 那样 。 最 后 ， 事 件 驱 动 设计 常常 比 基 于 进程 的 设 
计 要 高 效 得 多 ， 因 为 它们 不 需要 进程 上 下 文 切换 来 调度 新 的 流 。 

事件 驱动 设计 一 个 明显 的 缺点 就 是 编码 复杂 。 我 们 的 事件 驱动 的 并 发 echo 服务 硕 需 要 的 
代码 比 基 于 进程 的 服务 器 多 三 倍 ， 并 且 很 不 幸 ， 随 着 并 发 粒度 的 减 小 ， 复 杂 性 还 会 上 升 。 这 
里 的 粒度 是 指 每 个 逻辑 流 每 个 时 间 片 执行 的 指令 数量 。 例 如 ， 在 示例 并 发 服务 锅 中 ,并 发 粒 
度 就 是 读 一 个 完整 的 文本 行 所 需要 的 指令 数量 。 只 要 某 个 逻辑 流 正 忙于 读 一 个 文本 行 ， 其 他 
逻辑 流 就 不 可 能 有 进展 。 对 我 们 的 例子 来 说 这 没有 问题 ， 但 是 它 使 得 在 “故意 只 发 送 部 分 文 
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本 行 然 后 就 停止 ”的 恶意 客户 站 的 攻击 面前 ， 我 们 的 事件 驱动 服务 恬 显 得 很 脆弱 。 修 改 事件 
驱动 服务 右 来 处 理 部 分 文本 行 不 是 一 个 简单 的 任务 ,但 是 基于 进程 的 设计 却 能 处 理 得 很 好 ， 
而 且 是 自动 处 理 的 。 基 于 事件 的 设计 另 一 个 重要 的 缺点 是 它们 不 能 充分 利用 多 核 处 理 器 。 


12.3 基于 线程 的 并 发 编程 


到 目前 为 止 ， 我 们 已 经 看 到 了 两 种 创建 并 发 逻辑 流 的 方法 。 在 第 一 种 方法 中 ， 我 们 为 
每 个 流 使 用 了 单独 的 进程 。 内 核 会 自动 调度 每 个 进程 ， 而 每 个 进程 有 它 自己 的 私有 地 址 空 
间 ， 这 使 得 流 共享 数据 很 困难 。 在 第 二 种 方法 中 ， 我 们 创建 自己 的 逻辑 流 ， 并 利用 I/O 多 
路 复 用 来 显 式 地 调度 流 。 因 为 只 有 一 个 进程 ， 所 有 的 流 共享 整个 地 址 空间 。 本 节 介 绍 第 三 
种 方法 一 一 基于 线程 ， 它 是 这 两 种 方法 的 混合 。 

线程 (thread) 就 是 运行 在 进程 上 下 文中 的 逻辑 流 。 在 本 书 里 迄今 为 止 ， 程 序 都 是 由 每 
个 进程 中 一 个 线程 组 成 的 。 但 是 现代 系统 也 人 允许 我 们 编写 一 个 进程 里 同时 运行 多 个 线程 的 
程序 。 线 程 由 内 核 自 动 调度 。 每 个 线程 都 有 它 自己 的 线程 上 下 文 (thread context)， 包括 一 
个 唯一 的 整数 线程 ID(Thread ID，TID)、 栈 、 栈 指针 、 程 序 计数 器 、 通 用 目的 寄存 器 和 
条 件 码 。 所 有 的 运行 在 一 个 进程 里 的 线程 共享 该 进程 的 整个 虚拟 地 址 空间 。 

基于 线程 的 逻辑 流 结 合 了 基于 进程 和 基于 1/O 多 路 复 用 的 流 的 特性 。 同 进程 一 样 ， 线 
程 由 内 核 自 动 调度 ， 并 且 内 核 通过 一 个 整数 ID 来 识别 线程 。 同 基于 1/0 多 路 复 用 的 流 一 
样 ， 多 个 线程 运行 在 单一 进程 的 上 下 文中 ， 因此 共享 这 个 进程 虚拟 地 址 空间 的 所 有 内 容 ， 
包括 它 的 人 代码、 数据、 堆 、 共 享 库 和 打开 的 文件 。 


时 间 
12. 3. 1 线程 执行 模型 线程 1 线程 2 


( 主线 程 ) ( 对 等 线程 ) 


多 线程 的 执行 模型 在 某 些 方面 和 多 进 
程 的 执行 模型 是 相似 的 。 思 考 图 12-12 中 的 
示例 。 每 个 进程 开始 生命 周期 时 都 是 单一 
线程 ， 这 个 线程 称 为 主线 程 (main thread ) 。 
在 某 一 时 刻 ， 主 线程 创建 一 个 对 等 线程 
(peer thread)， 从 这 个 时 间 点 开始 ， 两 个 线 
程 就 并 发 地 运行 。 最 后 ， 因 为 主线 程 执行 
一 个 慢 速 系统 调用 ,例如 read 或 者 
sleep， 或 者 因为 被 系统 的 间 隅 计时 器 中 
断 ， 控 制 就 会 通过 上 下 文 切 换 传 递 到 对 等 图 12-12 并 发 线程 执行 
线程 。 对 等 线程 会 执行 一 段 时 间 ， 然 后 控制 传递 回 主线 程 ， 依 次 类 推 。 

在 一 些 重要 的 方面 ， 线 程 执行 是 不 同 于 进程 的 。 因 为 一 个 线程 的 上 下 文 要 比 一 个 进程 
的 上 下 文 小 得 多 ， 线程 的 上 下 文 切换 要 比 进程 的 上 下 文 切 换 快 得 多 。 男 一 个 不 同 就 是 线程 
不 像 进程 那样 ， 不 是 按照 严格 的 父子 层次 来 组 织 的 。 和 一 个 进程 相关 的 线程 组 成 一 个 对 等 
(线程 ) 池 ， 独 立 于 其 他 线程 创建 的 线程 。 主 线程 和 其 他 线程 的 区 别 仅 在 于 它 总 是 进程 中 第 
一 个 运行 的 线程 。 对 等 (线程 ) 池 概念 的 主要 影响 是 ， 一 个 线程 可 以 杀 死 它 的 任何 对 等 线 
程 ， 或 者 等 待 它 的 任意 对 等 线程 终止 。 另 外 ， 每 个 对 等 线程 都 能 读 写 相同 的 共享 数据 。 


}》 线程 上 下 文 切换 


} 线程 上 下 文 切 换 


》 线程 上 下 文 切换 





12. 3. 2 ”Posix 线程 
Posix 线程 (Pthreads) 是 在 C 程序 中 处 理 线程 的 一 个 标准 接口 。 它 最 早出 现在 1995 
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年 ， 而 且 在 所 有 的 Linux 系统 上 都 可 用 。Pthreads 定义 了 大 约 60 个 函数 ， 人 允许 程序 创建 、 
杀 死 和 回收 线程 ， 与 对 等 线程 安全 地 共享 数据 ， 还 可 以 通知 对 等 线程 系统 状态 的 变化 。 

图 12-13 展示 了 一 个 简单 的 Pthreads 程序 。 主 线程 创建 一 个 对 等 线程 ， 然 后 等 待 它 的 
终止 。 对 等 线程 输出 “Hello, world! \n” 并 且 终 止 。 当 主线 程 检测 到 对 等 线程 终止 后 ， 
它 就 通过 调用 exit 终止 该 进程 。 这 是 我 们 看 到 的 第 一 个 线程 化 的 程序 ， 所 以 让 我 们 仔细 
地 解析 它 。 线 程 的 代码 和 本 地 数据 被 封装 在 一 个 线程 例 程 (thread routine) 中 。 正 如 第 二 行 
里 的 原型 所 示 ， 每 个 线程 例 程 都 以 一 个 通用 指针 作为 输入 ， 并 返回 一 个 通用 指针 。 如 果 想 
传递 多 个 参数 给 线程 例 程 ， 那 么 你 应 该 将 参数 放 到 一 个 结构 中 ， 并 传递 一 个 指向 该 结构 的 
指针 。 相 似 地 ， 如 果 想 要 线程 例 程 返回 多 个 参数 ， 你 可 以 返回 一 个 指向 一 个 结构 的 指针 。 


code/conc/hello.c 
1 #include "csapp.h" 
2 void *thread(void *vargp); 
3 
4 int main() 
和 所 
6 pthread_t tid; 
7 Pthread_create(&tid, NULL, thread, NULL).; 
8 Pthread_join(tid, NULL); 
9 exit(0); 
10 } 
11 
12 void *thread(void *vargp) /* Thread routine */ 
3 所 
14 printf ("Hello, world!\n"); 
15 return NULL ; 
16 J 
code/conc/hello.c 
图 12-13 hello.c: 使 用 Pthreads 的 “Hello，world!” 程 序 


第 4 行 标 出 了 主线 程 代 码 的 开始 。 主 线程 声明 了 一 个 本 地 变量 tid， 可 以 用 来 存放 对 
等 线程 的 ID( 第 6 行 )。 主 线程 通过 调用 pthread create 函数 创建 一 个 新 的 对 等 线程 (第 
7 行 )。 当 对 pthread _ create 的 调用 返回 时 ， 主 线程 和 新 创建 的 对 等 线程 同时 运行 ， 并 
且 tid 包 含 新 线程 的 ID。 通 过 在 第 8 行 调 用 pthread join， 主 线程 等 竺 对 等 线程 终止 。 
最 后 ， 主 线程 调用 exit( 第 9 行 )， 终 止 当 时 运行 在 这 个 进程 中 的 所 有 线程 (在 这 个 示例 中 
就 只 有 主线 程 )。 

第 12 一 16 行 定 义 了 对 等 线程 的 例 程 。 它 只 打印 一 个 字符 串 ， 然 后 就 通过 执行 第 15 行 
中 的 return 语句 来 终止 对 等 线程 。 


12.3.3 创建 线程 
线程 通过 调用 pthread _ create 函数 来 创建 其 他 线程 。 


#include <pthread.h> 
typedef void *(func) (void *); 


int pthread_create(pthread_t *tid, pthread_attr_t *attr, 
func *f, void *arg); 
若 成 功 则 返回 0， 若 出 错 则 为 非 零 。 
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pthread_create 国 数 创 建 一 个 新 的 线程 ， 并 带 着 一 个 输入 变量 arg， 在 新 线程 的 上 
下 文中 运行 线程 例 程 E。 能 用 attr 参数 来 改变 新 创建 线程 的 默认 属性 。 改 变 这 些 属性 已 
超出 我 们 学 习 的 范围 ， 在 我 们 的 示例 中 ， 总 是 用 一 个 为 NULL 的 attr 参数 来 调用 
pthread _ create 函数 。 

当 pthread create 返回 时 ， 参数 tid 包含 新 创建 线程 的 ID。 新 线程 可 以 通过 调用 
pthread self 盟 数 来 获得 它 自 己 的 线程 ID。 


#include <pthread.h> 


pthread_t pthread_self (void); 


返回 调用 者 的 线程 ID。 





12. 3.4 终止 线程 


一 个 线程 是 以 下 列 方式 之 一 来 终止 的 : 

e 当 顶 层 的 线程 例 程 返 回 时 ， 线程 会 隐 式 地 终止 。 

e 通过 调用 pthread exit 函数 ,线程 会 显 式 地 终止 。 如 果 主 线程 调用 pthread ex- 
it， 它 会 等 待 折 有 其 他 对 等 线程 终止 ,然后 再 终止 主线 程 和 整个 进程 ， 返回 值 为 


thread return, 


#include <pthread.h> 


void pthread_exit(void *thread._return); 





e 某 个 对 等 线程 调用 Linux 的 exit 函数 ,该 明 数 终止 进程 以 及 所 有 与 该 进程 相关 的 


线程 。 
e 太一 个 对 等 线程 通过 以 当前 线程 ID 作为 参数 调用 pthread cancel 函数 来 终止 当 
前 线程 。 


#include <pthread.h> 


int pthread_cancel (pthread_t tid) ; 
车 成 功 则 返回 0， 若 出 错 则 为 非 零 。 





12. 3.5 回收 已 终止 线程 的 资源 
线程 通过 调用 pthread join 函数 等 待 其 他 线程 终止 。 


#include “pthread .hy> 


int pthread_join(pthread_t tid, void **thread_return); 


若 成 功 则 返回 0， 若 出 错 则 为 非 零 。 





pthread join 函数 会 阻塞 ， 直 到 线程 tid 终止， 将 线程 例 程 返回 的 通用 (voidx ) 指 
针 赋 值 为 thread return 指 疝 的 位 置 ， 然 后 回收 已 终止 线程 占用 的 所 有 内 存 资源 。 

注意 ， 和 Linux 的 wait 因数 不 同 ，pthread join 函数 只 能 等 待 一 个 指定 的 线程 终 
止 。 没 有 办 法 让 pthreaqd _wait 等 待 任意 一 个 线程 终止 。 这 使 得 代码 更 加 复杂 ， 因 为 它 迫 
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使 我 们 去 使 用 其 他 一 些 不 那么 直观 的 机 制 来 检测 进程 的 终止 。 实 际 上 ，Stevens 在 L110j] 中 
就 很 有 说 服 力 地 论证 了 这 是 规范 中 的 一 个 错误 。 


12. 3.6 分 离线 程 


在 任何 一 个 时 间 点 上 ， 线 程 是 可 结合 的 (joinable) 或 者 是 分 离 的 (detached)。 一 个 可 结 
合 的 线程 能 够 被 其 他 线程 收回 和 杀 死 。 在 被 其 他 线程 回收 之 前 ， 它 的 内 存 资 源 ( 例 如 栈 ) 是 
不 释放 的 。 相 反 ， 一 个 分 离 的 线程 是 不 能 被 其 他 线程 回收 或 杀 死 的 。 它 的 内 存 资 源 在 它 终 
止 时 由 系统 上 自动 释放 。 

默认 情况 下 ， 线 程 被 创建 成 可 结合 的 。 为 了 避免 内 存 泄漏 ， 每 个 可 结合 线程 都 应 该 要 
么 被 其 他 线程 显 式 地 收回 ， 要 么 通过 调用 pthread detach 困 数 被 分 离 。 


#include <pthread.h> 


int pthread_detach(pthread_t tid) ; 





若 成 功 则 返回 0， 若 出 错 则 为 非 零 。 


pthread detach 国 数 分 离 可 结合 线程 tid。 线 程 能 够 通过 以 pthread _ self () 为 参 
数 的 pthreaqd detach 调用 来 分 离 它 们 自己 。 

尽管 我 们 的 一 些 例子 会 使 用 可 结合 线程 ， 但 是 在 现实 程序 中 ， 有 很 好 的 理由 要 使 用 分 
离 的 线程 。 例 如 ， 一 个 高 性 能 Web 服务 器 可 能 在 每 次 收 到 Web 浏览 器 的 连接 请 求 时 都 创 
建 一 个 新 的 对 等 线程 。 因 为 每 个 连接 都 是 由 一 个 单独 的 线程 独立 处 理 的 ， 所 以 对 于 服务 器 
而 言 ， 就 很 没有 必要 (实际 上 也 不 愿意 ) 显 式 地 等 待 每 个 对 等 线程 终止 。 在 这 种 情况 下 ， 每 
个 对 等 线程 都 应 该 在 它 开 始 处 理 请 求 之 前 分 离 它 自身 ， 这 样 就 能 在 它 终止 后 回收 它 的 内 存 
资源 了 。 


12. 3. 7 初始 化 线程 
pthread_once 限 数 允许 你 初始 化 与 线程 例 程 相关 的 状态 。 


#include <pthread.h> 


pthread_once_t once_control = PIHREAD_ONCE_INIT; 


int pthread_once(pthread_once_t *once_control, 
void (*init_routine) (void) ) ; 





once_control 变量 是 一 个 全 局 或 者 静态 变量 ， 总 是 被 初始 化 为 PTHREAD_ONCE_ 
INIT。 当 你 第 一 次 用 参数 once control 调用 pthread once 时 ， 它 调用 init rou- 
tine， 这 是 一 个 没有 输入 参数 、 也 不 返回 什么 的 图 数 。 接 下 来 的 以 once control 为 参数 
的 pthread once 调用 不 做 任何 事情 。 无 论 何 时 ， 当 你 需要 动态 初始 化 多 个 线程 共享 的 全 
局 变量 时 ，pthread _ once 函数 是 很 有 用 的 。 我 们 将 在 12. 5. 5 节 里 看 到 一 个 示例 。 


12.3.8 ”基于 线程 的 并 发 服务 响 


图 12-14 展示 了 基于 线程 的 并 发 echo 服务 器 的 代码 。 整 体 结构 类 似 于 基于 进程 的 设 
计 。 主 线程 不 断 地 等 待 连接 请 求 ， 然 后 创建 一 个 对 等 线程 处 理 该 请 求 。 虽 然 代 码 看 似 简 
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单 ， 但 是 有 几 个 普遍 而 且 有 些微 妙 的 问题 需要 我 们 更 仔细 地 看 一 看 。 第 一 个 问题 是 当 我 们 
调用 pthread create 时 ， 如 何 将 已 连接 描述 符 传递 给 对 等 线程 。 最 明显 的 方法 就 是 传递 
一 个 指向 这 个 描述 符 的 指针 ， 就 像 下 面 这 样 

connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 

Pthread_create(&tid, NULL, thread, &connfd); 


然后 ,我们 让 对 等 线程 间接 引用 这 个 指针 ， 并 将 它 赋值 给 一 个 局 部 变量 ， 如 下 所 示 


void *thread(void *vargp) { 
int connfd = *((int *)vargp); 


code/conc/echoservert.c 


#include "csapp.h" 


] 

2 

3 void echo(int connfd) ; 

4 void *thread(void *vargp); 

5 

6 int main(int argc, char **argv) 

7 { 

8 int listenfd, *connfdp; 

9 socklen _t clientlen; 

10 struct sockaddr_storage clientaddr; 

11 pthread_t tid; 

12 

13 if (argc != 2) 1{ 

14 fprintf (stderr, "usage: %s <port>\n", argv[0]); 
15 exit(0); 

16 } 

17 listenfd = 0pen_listenfd(argv[1] ) ; 

18 

19 while (1) { 

20 clientlen=sizeof (struct sockaddr_storage); 
21 connfdp = Malloc(sizeof (int)); 

22 *connfdp = Accept(listenfd, (SA *) &clientaddr, &clientlen); 
23 Pthread_create(&tid, NULL, thread, connfdp); 
24 } 

25 } 

26 


27 /* Thread routine */ 
28 void *thread(void *vargp) 


29 { 

30 int connfd = *((int *)vargp); 
31 Pthread_detach(pthread_self ()); 
32 Free(vargp); 

33 echo(connfd) ; 

34 Close(connfd) ; 

35 return NULL ; 

36 } 


code/conc/echoservert.c 


图 12-14 基于 线程 的 并 发 echo 服务 颖 
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然而 ， 这 样 可 能 会 出 错 ， 因 为 它 在 对 等 线程 的 赋值 语句 和 主线 程 的 accept 语句 间 引 入 了 
竞争 (race)。 如 果 赋 值 语 句 在 下 一 个 accept 之 前 完成 ， 那 么 对 等 线程 中 的 局 部 变量 
connfd 就 得 到 正确 的 描述 符 值 。 然 而 ， 如 果 赋 值 语 句 是 在 accept 之 后 才 完 成 的 ， 那么 对 
等 线程 中 的 局 部 变量 connfd 就 得 到 下 一 次 连接 的 描述 符 值 。 那 么 不 幸 的 结果 就 是 ， 现 在 
两 个 线程 在 同一 个 描述 符 上 执行 输入 和 输出 。 为 了 避免 这 种 潜在 的 致命 竞争 ， 我 们 必须 将 
accept 返回 的 每 个 已 连接 描述 符 分 配 到 它 自 己 的 动态 分 配 的 内 存 块 ， 如 第 20 一 21 行 所 
示 。 我 们 会 在 12. 7. 4 节 中 回 过 来 讨论 竞争 的 问题 。 

另 一 个 问题 是 在 线程 例 程 中 避免 内 存 泄漏 。 既 然 不 显 式 地 收回 线程 ， 就 必须 分 离 每 个 
线程 ， 使 得 在 它 终止 时 它 的 内 存 资源 能 够 被 收回 (第 31 行 )。 更 进一步 ， 我 们 必须 小 心 释 
放 主 线程 分 配 的 内 存 块 (第 32 行 )。 

放 s 练习 题 12.5 在 图 12-5 中 基于 进程 的 服务 器 中 ， 我 们 在 两 个 位 置 小 心地 关闭 了 已 连 

接 描述 符 ， 父 进程 和 子 进 程 。 然 而 ， 在 图 12-14 中 基于 线程 的 服务 器 中 ， 我 们 只 在 一 

个 位 置 关 闭 了 已 连接 描述 符 ; 对 等 线程 。 为 什么 ? 


12.4 多 线程 程序 中 的 共享 变量 


从 程序 员 的 角度 来 看 ， 线 程 很 有 吸引 力 的 一 个 方面 是 多 个 线程 很 容易 共享 相同 的 程序 
变量 。 然 而 ， 这 种 共享 也 是 很 棘手 的 。 为 了 编写 正确 的 多 线程 程序 ， 我 们 必须 对 所 谓 的 共 
享 以 及 它 是 如 何 工作 的 有 很 清楚 的 了 解 。 

为 了 理解 C 程序 中 的 一 个 变量 是 否 是 共享 的 ， 有 一 些 基 本 的 问题 要 解答 : 1) 线程 的 基 
础 内 存 模型 是 什么 ? 2) 根据 这 个 模型 ， 变 量 实例 是 如 何 映射 到 内 存 的 ? 3) 最 后 ， 有 多 少 线 
程 引用 这 些 实 例 ? 一 个 变量 是 共享 的 ， 当 且 仅 当 多 个 线程 引用 这 个 变量 的 茶 个 实例 。 

为 了 让 我 们 对 共享 的 讨论 具体 化 ， 我 们 将 使 用 图 12-15 中 的 程序 作为 运行 示例 。 尽 管 
有 些 人 为 的 痕迹 ， 但 是 它 仍然 值 得 研究 ， 因 为 它 说 明了 关于 共享 的 许多 细微 之 处 。 示 例 程 
序 由 一 个 创建 了 两 个 对 等 线程 的 主线 程 组 成 。 主 线程 传递 一 个 唯一 的 ID 给 每 个 对 等 线程 ， 
每 个 对 等 线程 利用 这 个 ID 输出 一 条 个 性 化 的 信息 ， 以 及 调用 该 线程 例 程 的 总 次 数 。 


12. 4. 1 线程 内 存 模型 


一 组 并 发 线程 运行 在 一 个 进程 的 上 下 文中 。 每 个 线程 都 有 它 目 己 独 立 的 线程 上 下 文 ， 
包括 线程 ID、 栈 、 栈 指针 、 程 序 计 数 锅 、 条 件 码 和 通用 目的 寄存 需 值 。 每 个 线程 和 其 他 
线程 一 起 共享 进程 上 下 文 的 剩余 部 分 。 这 包括 整个 用 户 虚 拟 地 址 空间 ， 它 是 由 只 读 文 本 
(代码 )、 读 / 写 数据 、 堆 以 及 所 有 的 共享 库 代 码 和 数据 区 域 组 成 的 。 线 程 也 共享 相同 的 打 
开 文 件 的 集合 。 

从 实际 操作 的 角度 来 说 ， 让 一 个 线程 去 读 或 写 男 一 个 线程 的 寄存 右 值 是 不 可 能 的 。 为 
一 方面 ， 任 何 线程 都 可 以 访问 共享 虚拟 内 存 的 任意 位 置 。 如 果 某 个 线程 修改 了 一 个 内 存 位 
置 ， 那 么 其 他 每 个 线程 最 终 都 能 在 它 读 这 个 位 置 时 发 现 这 个 变化 。 因 此 ， 寄 存 占 是 从 不 共 
享 的 ， 而 虚拟 内 存 总 是 共享 的 。 

各 自 独立 的 线程 栈 的 内 存 模 型 不 是 那么 整齐 清楚 的 。 这 些 栈 被 保存 在 虚拟 地 址 空间 的 
栈 区 域 中 ， 并 且 通 常 是 被 相应 的 线程 独立 地 访问 的 。 我 们 说 通常 而 不 是 总 是 ， 是 因为 不 同 
的 线程 栈 是 不 对 其 他 线程 设防 的 。 所 以 ， 如 果 一 个 线程 以 某 种 方式 得 到 一 个 指向 其 他 线程 
栈 的 指针 ， 那 么 它 就 可 以 读 写 这 个 栈 的 任何 部 分 。 示 例 程 序 在 第 26 行 展 示 了 这 一 点 ， 其 
中 对 等 线程 直接 通过 全 局 变量 ptr 间接 引用 主线 程 的 栈 的 内 容 。 
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code/conc/sharing.c 
1 #include "csapp.h" 
2 #define N 2 
3 void *thread(void *vargp); 
4 
5 char **ptr; /* Global variable */ 
6 
7 int main() 
8 { 
9 nt 让 ; 
10 pthread_t tid; 
11 char *msgs[N] = { 
12 "Hello from foo", 
13 "Hello from bar" 
14 yu 
15 
16 ptr = msgs; 
17 for (i = 0; i < N; i++) 
18 Pthread_create(&tid, NULL, thread, (void *)i); 
19 Pthread_exit(NULL ) ; 
20 } 
21 
22 void *thread(void *vargp) 
23 { 
24 int myid = (int)vargp; 
25 static int cnt = 0; 
26 printf("[%d]: %s (cnt=%d)\n", myid, ptr[myid], ++cnt); 
27 return NULL; 
28 } 
code/conc/sharing.c 


图 12-15 说 明 共 享 不 同方 面 的 示例 程序 


12. 4.2 将 变量 映射 到 内 存 


多 线程 的 C 程序 中 变量 根据 它们 的 存储 类 型 被 映射 到 虚拟 内 存 : 

e@ 全 局 变量 。 全 局 变量 是 定义 在 函数 之 外 的 变量 。 在 运行 时 ， 虚 拟 内 存 的 读 / 写 区 域 

只 包含 每 个 全 局 变量 的 一 个 实例 ， 任 何 线程 都 可 以 引用 。 例 如 ， 第 5 行 声 明 的 全 局 

变量 ptr 在 虚拟 内 存 的 读 / 写 区 域 中 有 一 个 运行 时 实例 。 当 一 个 变量 只 有 一 个 实例 

时 ， 我 们 只 用 变量 名 (在 这 里 就 是 ptr) 来 表示 这 个 实例 。 

本 地 自动 变量 。 本 地 目 动 变量 就 是 定义 在 函数 内 部 但 是 没有 static 属性 的 变量 。 

在 运行 时 ， 每 个 线程 的 栈 都 包含 它 自己 的 所 有 本 地 自动 变量 的 实例 。 即 使 多 个 线程 

执行 同一 个 线程 例 程 时 也 是 如 此 。 例 如 ， 有 一 个 本 地 变量 tia 的 实例 ， 它 保存 在 主 

线程 的 栈 中 。 我 们 用 tiq.m 来 表示 这 个 实例 。 再 来 看 一 个 例子 ， 本 地 变量 myid 有 

两 个 实例 ， 一 个 在 对 等 线程 0 的 栈 内 ， 男 一 个 在 对 等 线程 1 的 栈 内 。 我 们 将 这 两 个 

实例 分 别 表 示 为 myid.p0 和 myid.pl。 

9 本 地 静态 变量 。 本 地 静态 变量 是 定义 在 函数 内 部 并 有 static 属性 的 变量 。 和 全 局 
变量 一 样 ， 虚 拟 内 存 的 读 / 写 区 域 只 包含 在 程序 中 声明 的 每 个 本 地 静态 变量 的 一 个 
实例 。 例 如 ， 即 使 示例 程序 中 的 每 个 对 等 线程 都 在 第 25 行 声明 了 cnt， 在 运行 时 ， 
虚拟 内 存 的 读 / 写 区 域 中 也 只 有 一 个 cnt 的 实例 。 每 个 对 等 线程 都 读 和 写 这 个 实例 。 
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12. 4.3 ”共享 变 


我 们 说 一 个 变量 是 共享 的 ， 当 且 仅 当 它 的 一 个 实例 被 一 个 以 上 的 线程 引用 。 例 如 ， 
示例 程序 中 的 变量 cnt 就 是 共享 的 ， 因 为 它 只 有 一 个 运行 时 实例 ， 并 且 这 个 实例 被 两 个 对 
等 线程 引用 。 在 另 一 方面 ，myid 不 是 共享 的 ， 因 为 它 的 两 个 实例 中 每 一 个 都 只 被 一 个 线 
程 引 用 。 然 而 ， 认 识 到 像 msgs 这 样 的 本 地 自动 变量 也 能 被 共享 是 很 重要 的 。 

写 沁 练习 题 12. 6 
A. 利用 12.4 节 中 的 分 析 ， 为 图 12-15 中 的 示例 程序 在 下 表 的 每 个 条 目 中 填写 “是 ” 
或 者 “ 否 ”。 在 第 一 列 中 ， 符 号 v.t 表示 变量 v 的 一 个 实例 ， 它 驻 留 在 线程 t 的 本 
地 栈 中 ， 其 中 +t 要么 是 m( 主 线程 )， 要 么 是 p0( 对 等 线程 0) 或 者 p1( 对 等 线程 1)。 


变量 实例 主线 程 引 用 的 ? 对 等 线程 0 引用 的 ? 对 等 线程 1 引用 的 ? 


ptr 
a | | 
im | | 












myid.po 


myid.pl 





12.5 用 信号 量 同步 线程 
共享 变量 是 十 分 方便 ， 但 是 它们 也 引入 了 同步 错误 (synchronization error) 的 可 能 性 。 考 
虑 图 12-16 中 的 程序 badqcnt.c， 它 创建 了 两 个 线程 ， 每 个 线程 都 对 共享 计数 变量 cnt 加 1。 


code/conc/badcnit.c 
/* WARNING: This code is buggy! */ 


1 

2 #include "csapp.h" 

3 

4 void *thread(void *vargp); /* Thread routine prototype */ 
3 

6  /* Global shared variable */ 

7 Volatile long cnt = 0; /* Counter */ 

8 

9 int main(int argc, char **argV) 

10 { 

11 long niters; 

2 pthread_t tidi, tid2; 

13 

14 /* Check input argument */ 

15 if (argc != 2) { 

16 printf("usage: %s <niters>\n", argv[0]); 
17 exit (0); 

18 } 

19 niters = atoi(argv[1]); 
20 

21 /* Create threads and wait for them to finish */ 
22 Pthread_create(&tidi, NULL, thread, &niters).: 


图 12-16 ”badcnt. c: 一 个 同步 不 正确 的 计数 器 程序 
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23 Pthread_create(&tid2, NULL, thread, &niters); 
24 Pthread_join(tidi, NULL); 

25 Pthread_join(tid2, NULL); 

26 

27 /* Check result */ 

28 if (cnt 1!= (2 * niters)) 

29 printf ("BOOM! cnt=%ld\n", cnt); 
30 else 

31 printf ("OK cnt=hld\n", cnt); 

32 exit(0); 

33 上 


35 /* Thread routine */ 
36 void *thread(void *vargp) 


37 { 

38 long i, niters = *((long *)vargp); 
39 

40 for (i = 0; i < niters; i++) 

4] cnt++; 

42 

43 return NULL ; 

44 


code/conc/badcnt.c 
图 12-16 ( 续 ) 


因为 每 个 线程 都 对 计数 器 增加 了 niters 次 ， 我 们 预计 它 的 最 终 值 是 2Xniters。 这 


看 上 去 简单 而 直接 。 然 而 ， 当 在 Linux 系统 上 运行 badqcnt.c 时 ， 我 们 不 仅 得 到 错误 的 答 


案 ， 


而 且 每 次 得 到 的 答案 都 还 不 相同 ! 


linux> ./badcnt 1000000 
BOOM! cnt=1445085 


linux> ./badcnt 1000000 
BOOM! cnt=1915220 


linux> ./badcnt 1000000 
BOOM! cnt=1404746 


那么 哪里 出 错 了 呢 ?” 为 了 清晰 地 理解 这 个 问题 ， 我 们 需要 研究 计数 器 循环 (第 40 一 41 


行 ) 的 汇编 代码 ， 如 图 12-17 所 示 。 我 们 发 现 ， 将 线程 i 的 循环 代码 分 解 成 五 个 部 分 是 很 有 
帮助 的 : 


一 个 


A 


e 万 ,: 在 循环 头 部 的 指令 块 。 

e L,;: 加 载 共 享 变量 cnt 到 累加 寄存 器 $rdx; 的 指令 ， 这 里 $rdx; 表 示 线 程 i 中 的 寄存 
器 srdx 的 值 。 

e U,: 更 新 (增加 )%rdx; 的 指令 。 

e S;: 将 srdx; 的 更 新 值 存 回 到 共享 变量 cnt 的 指令 。 

® 7. 循环 尾部 的 指令 块 。 

注意 头 和 尾 只 操作 本 地 栈 变 量 ， 而 L;、U; 和 5S; 操作 共享 计数 器 变量 的 内 容 。 

当 badcnt.c 中 的 两 个 对 等 线程 在 一 个 单 处 理 器 上 并 发 运行 时 ， 机 器 指令 以 某 种 顺序 

接 一 个 地 完成 。 因 此 ， 每 个 并 发 执行 定义 了 两 个 线程 中 的 指令 的 某 种 全 序 ( 或 者 交 


。 不 泣 的 是 ， 这 些 顺 序 中 的 一 些 将 会 产生 正确 结果 ， 但 是 其 他 的 则 不 会 。 
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线程 的 汇编 代码 


(S$rdi),$rcx 
和 CX EC 


cnt (Srip), Srdx 


线程 的 C 代 码 


%Seax 
Seax, cnt (%r1ip) 





图 12-17 badcnt.c 中 计数 器 循环 (第 40 一 41 行 ) 的 汇编 代码 


这 里 有 个 关键 点 : 一 般 而 言 ， 你 没有 办 法 预测 操作 系统 是 否 将 为 你 的 线程 选择 一 个 正 
确 的 顺序 。 例 如 ， 图 12-18a 展示 了 一 个 正确 的 指令 顺序 的 分 步 操 作 。 在 每 个 线程 更 新 了 
共享 变量 cnt 之 后 ， 它 在 内 存 中 的 值 就 是 2， 这 正 是 期 望 的 值 。 

太一 方面 ， 12-18b 的 顺序 产生 一 个 不 正确 的 cnt 的 值 。 会 发 生 这 样 的 问题 是 因为 ， 
线程 2 在 第 5 步 加 载 cnt， 是 在 第 2 步 线程 1 加 载 cnt 之 后 ， 而 在 第 6 步 线程 1 存储 它 的 
更 新 值 之 前 。 因 此 ， 每 个 线程 最 终 都 会 存储 一 个 值 为 1 的 更 新 后 的 计数 器 值 。 我 们 能 够 借 
助 于 一 种 叫做 进度 图 (progress graph) 的 方法 来 阐明 这 些 正确 的 和 不 正确 的 指令 顺序 的 概 
念 ， 这 个 图 我 们 将 在 下 一 节 中 介绍 。 


步骤 线程 指令 Wax hrdxz cnt 


步骤 线程 指令 Wraxl %rdx, cnt 
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a) 正确 的 顺序 b) 不 正确 的 顺序 
图 12-18 ”badcnt.c 中 第 一 次 循环 迭代 的 指令 顺序 


世 练习 题 12.7 根据 badcnt.c 的 指令 顺序 完成 下 表 : 





这 种 顺序 会 产生 一 个 正确 的 cnt 值 吗 ? 
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12. 5.1 进度 图 
进度 图 (progress graph) 将 nn 个 并 发 线程 的 执行 模型 化 为 一 条 nn 维 备 卡 儿 空间 中 的 轨 
迹 线 。 每 条 轴 上 对 应 于 线程 的 进度 。 每 个 点 (五 ， 天 ，…， 也 ) 代 表 线 程 E(k 二 1，…*，n) 


已 经 完成 了 指令 到 这 一 状态 。 图 的 原点 对 应 于 没有 任何 线程 完成 一 条 指令 的 初始 状态 。 

图 12-19 展示 了 badcnt .c 程序 第 一 次 循环 迭代 的 二 维 进度 图 。 水 平 轴 对 应 于 线程 1， 
垂直 轴 对 应 于 线程 2。 点 (Li1，S;) 对 应 于 线程 1 完成 了 工 而 线程 2 完成 了 S; 的 状态 。 

进度 图 将 指令 执行 模型 化 为 从 一 种 状态 到 男 一 种 状态 的 转换 (transition)。 转 换 被 表示 
为 一 条 从 一 点 到 相 邻 点 的 有 向 边 。 合 法 的 转换 是 向 右 (线程 1 中 的 一 条 指令 完成 ) 或 者 向 上 
(线程 2 中 的 一 条 指令 完成 ) 的 。 两 条 指令 不 能 在 同一 时 刻 完 成 一 一 对 角 线 转换 是 不 允许 
的 。 程 序 决 不 会 反 回 运行 ， 所 以 癌 下 或 者 癌 左 移动 的 转换 也 是 不 合法 的 。 

一 个 程序 的 执行 历史 被 模型 化 为 状态 空间 中 的 一 条 轨迹 线 。 图 12-20 展示 了 下 面 指令 

顺序 对 应 的 轨迹 线 : 





H', Li, Ui， 五 >， 1 ， Wi Tis Us, 2， 1,» 
线程 2 线程 2 





f 实 枉 1 
AH Li U' 5 1 7 L, U, Ai 了 发 程 


图 12-19 ”badcnt.c 第 一 次 循环 迭代 的 进度 图 图 12-20 ”一 个 轨迹 线 示例 

对 于 线程 1， 操作 共享 变量 cnt 内 容 的 指令 (L;，U;，S;) 构 成 了 一 个 (关于 共享 变量 
cnt 的 ) 临 界 区 (critical section)， 这 个 临界 区 不 应 该 和 其 他 进程 的 临界 区 交 蔡 执行 。 换 句 
话说 ， 我 们 想 要 确保 每 个 线程 在 执行 它 的 临界 区 中 的 指令 时 ， 拥 有 对 共享 变量 的 互 斥 的 访 
问 (mutually exclusive access) 。 通 第 这 种 现象 称 为 互 斥 (mutual exclusion) 。 

在 进度 图 中 ， 两 个 临界 区 的 交集 形成 的 状态 空间 区 域 称 为 不 安全 区 (unsafe region ) 。 
图 12-21 展示 了 变量 cnt 的 不 安全 区 。 注 意 ， 不 安全 区 和 与 它 交 界 的 状态 相 上 毗邻 ， 但 并 不 
包括 这 些 状态 。 例 如 ， 状 态 ( 瑟 ;| ， 昌 ;) 和 (S;，U;) 紫 邻 不 安全 区 ,但 是 它们 并 不 是 不 安全 
区 的 一 部 分 。 绕 开 不 安全 区 的 轨迹 线 叫 做 安全 轨迹 线 (safe trajectory)。 相 反 ， 接 触 到 任何 
不 安全 区 的 轨迹 线 就 叫做 不 安全 轨迹 线 (Cunsafe trajectory)。 图 12-21 给 出 了 示例 程序 
badcnt.c 的 状态 空间 中 的 安全 和 不 安全 轨迹 线 。 上 面 的 轨迹 线 绕 开 了 不 安全 区 域 的 左边 
和 上 边 ， 所 以 是 安全 的 。 下 面 的 轨迹 线 穿越 不 安全 区 ， 因 此 是 不 安全 的 。 

任何 安全 轨迹 线 都 将 正确 地 更 新 共享 计数 器 。 为 了 保证 线程 化 程序 示例 的 正确 执行 ( 实 
际 上 任何 共享 全 局 数据 结构 的 并 发 程序 的 正确 执行 ) 我 们 必须 以 某 种 方式 同步 线程 ， 使 它们 
总 是 有 一 条 安全 轨迹 线 。 一 个 经 典 的 方法 是 基于 信号 量 的 思想 ， 接 下 来 我 们 就 介绍 它 。 
区 练习 题 12.8 使 用 图 12-21 中 的 进度 图 ， 将 下 列 轨 迹 线 划分 为 安全 的 或 者 不 安全 的 。 

Asitlhs Ls Nis Ss Hs ss ha Bs 35 2& 
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写 cnt 的 
临界 区 . 





OC 
写 cnt 的 临界 区 . 


图 12-21 安全 和 不 安全 轨迹 线 。 临 界 区 的 交集 形成 了 不 安全 区 。 
绕 开 不 安全 区 的 轨迹 线 能 够 正确 更 新 计数 带 变 量 


12. 5.2 信号 量 


Edsger Dijkstra， 并 发 编程 领域 的 先锋 人 物 ， 提 出 了 一 种 经 典 的 解决 同步 不 同 执行 线 
程 问 题 的 方法 ， 这 种 方法 是 基于 一 种 叫做 信号 量 (semaphore) 的 特殊 类 型 变量 的 。 信 和 号 量 
是 具有 非 负 整 数值 的 全 局 变量 ， 只 能 由 两 种 特殊 的 操作 来 处 理 ， 这 两 种 操作 称 为 PP 和: 
e P(s): 如 果 s 是 非 零 的 ,那么 乙 将 * 减 1， 并 且 立 即 返回 。 如 宁 为 零 ， 那 么 就 挂 
起 这 个 线程 ， 直 到 * 变 为 非 零 ， 而 一 个 V 操作 会 重启 这 个 线程 。 在 重启 之 后 ，P 操 
作 将 s 减 1]， 并 将 控制 返回 给 调用 者 。 

eV(s):V 操作 将 s 加 1。 如 果 有 任何 线程 阻塞 在 P 操作 等 待 变 成 非 零 ， 那么 V 操 
作 会 重启 这 些 线程 中 的 一 个 ， 然 后 该 线程 将 * 减 1， 完 成 它 的 了 操作。 

P 中 的 测试 和 减 1 操作 是 不 可 分 割 的 ， 也 就 是 说 ， 一旦 预测 信号 量 * 变 为 非 零 ， 就 会 
将 ; 减 1， 不 能 有 中 断 。V 中 的 加 1 操作 也 是 不 可 分 割 的 ， 也 就 是 加 载 、 加 1 和 存储 信和 号 
量 的 过 程 中 没有 中 断 。 注 意 ，V 的 定义 中 没有 定义 等 待 线程 被 重启 动 的 顺序 。 唯 一 的 要 求 
是 V 必须 只 能 重启 一 个 正在 等 待 的 线程 。 因 此 ， 当 有 多 个 线程 在 等 待 同一 个 信号 量 时 ， 你 
不 能 预测 V 操作 要 重启 哪 一 个 线程 。 

P 和 V 的 定义 确保 了 一 个 正在 运行 的 程序 绝 不 可 能 进入 这 样 一 种 状态 ， 也 就 是 一 个 正 
确 初始 化 了 的 信号 量 有 一 个 负 值 。 这 个 属性 称 为 信号 量 不 变性 (semaphore invariant) ， 为 
控制 并 发 程序 的 轨迹 线 提供 了 强 有 力 的 工具 ， 在 下 一 节 中 我 们 将 看 到 

Posix 标准 定义 了 许多 操作 信号 量 的 函数 。 


#include <semaphore.h> 


int sem_init(sem t *sem, 0, unsigned int value); 


int sem wait(sem_ t *s); /* P(s) */ 
int sem_post(sem t *s); /* V(s) */ 





返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 


第 12 草 并 发 编程 703 


sem init 哺 数 将 信号 量 sem 初始 化 为 value。 每 个 信号 量 在 使 用 前 必须 初始 化 。 针 
对 我 们 的 目的 ， 中 间 的 参数 总 是 零 。 程 序 分 别 通 过 调用 sem wait 和 sem _ post 函数 来 执 
行 忆 和 V 操 作 。 为 了 简明 ， 我 们 更 喜欢 使 用 下 面 这 些 等 价 的 已 和 Y 的 包 冯 函数: 


#include "csapp.h" 


void P(sem_t *s); /* Wrapper function for sem_wait */ 


void V(sem_t *s); /* Wrapper function for sem_post */ 





EE3 P 和 V 名 字 的 起 源 
Edsger Dijkstra(1930 一 2002) 出 生 于 荷兰 。 名 字 王 和 人 来源 于 荷兰 语 单词 Proberen 
(测试 ) 和 Verhogen( 增 加 )。 


12.5.3 使 用 信号 量 来 实现 互 斥 


信和 号 量 提供 了 一 种 很 方便 的 方法 来 确保 对 共享 变量 的 互 斥 访 问 。 基 本 思想 是 将 每 个 共 
享 变量 (或 者 一 组 相关 的 共享 变量 ) 与 一 个 信号 量 (初始 为 1) 联系 起 来 ， 然 后 用 P(s) 和 V 
(s) 操 作 将 相应 的 临界 区 包围 起 来 。 

以 这 种 方式 来 保护 共享 变量 的 信号 量 叫 做 二 元 信号 量 (binary semaphore)， 因 为 它 的 
值 总 是 0 或 者 1。 以 提供 互 矿 为 目的 的 二 元 信号 量 和 常常 也 称 为 互 斥 锁 (mutex)。 在 一 个 互 
斥 锁 上 执行 P 操作 称 为 对 互 斥 锁 加 锁 。 类 似 地 ， 执行 V 操作 称 为 对 互 斥 锁 解锁 。 对 一 个 
互 斥 锁 加 了 锁 但 是 还 没有 解锁 的 线程 称 为 占用 这 个 互 斥 锁 。 一 个 被 用 作 一 组 可 用 资源 的 计 
数 器 的 信和 号 量 被 称 为 计数 信号 量 。 

图 12-22 中 的 进度 图 展示 了 我 们 如 何 利 用 二 元 信号 量 来 正确 地 同步 计数 器 程序 示例 。 
每 个 状态 都 标 出 了 该 状态 中 信和 号 量 * 的 值 。 关 键 思想 是 这 种 P 和 VV 操作 的 结合 创建 了 一 组 

线程 2 





线程 1 


已 P(s) Li Ui SI V(s) 7 


图 12-22 ”使 用 信号 量 来 互 斥 。;s 达 0 的 不 可 行 状态 定义 了 一 个 禁止 区 ， 禁 止 区 
完全 包括 了 不 安全 区 ， 阻 止 了 实际 可 行 的 轨迹 线 接触 到 不 安全 区 


704 第 三 部 分 程序 间 的 交互 和 通信 


状态 ， 叫 做 禁止 区 (forbidden region) ， 其 中 ;二 0。 因 为 信号 量 的 不 变性 ， 没 有 实际 可 行 的 
轨迹 线 能 够 包含 禁止 区 中 的 状态 。 而 且 ， 因 为 禁止 区 完全 包括 了 不 安全 区 ， 所 以 没有 实际 
可 行 的 轨迹 线 能 够 接触 不 安全 区 的 任何 部 分 。 因 此 ， 每 条 实际 可 行 的 轨迹 线 都 是 安全 的 ， 
而 且 不 管 运行 时 指令 顺序 是 怎样 的 ， 程 序 都 会 正确 地 增加 计数 器 值 。 

从 可 操作 的 意义 上 来 说 ， 由 P 和 V 操作 创建 的 禁止 区 使 得 在 任何 时 间 点 上 ， 在 被 包 
围 的 临界 区 中 ， 不 可 能 有 多 个 线程 在 执行 指令 。 换 句 话 说 ,信号 量 操作 确保 了 对 临界 区 的 
互 斥 访问 。 

总 的 来 说 ， 为 了 用 信号 量 正确 同步 图 12-16 中 的 计数 器 程序 示例 ， 我 们 首先 声明 一 个 
信号 量 mutex: 

Volatile long cnt = 0; /* Counter */ 

sem_t mutex; /* Semaphore that protects counter */ 


然后 在 主 例 程 中 将 mutex 初始 化 为 1: 


Sem_init(&mutex, 0, 1); /* mutex = 1 */ 


最 后 ， 我 们 通过 把 在 线程 例 程 中 对 共享 变量 cnt 的 更 新 包围 P 和 VV 操作， 从 而 保护 
它们 : 
for (i = 0; i < niters: i++) { 
P(&mutexy) ; 
cnt 十， 
V(&mutex): 
} 


当 我 们 运行 这 个 正确 同步 的 程序 时 ， 现 在 它 每 次 都 能 产生 正确 的 结果 了 。 
linux> ./goodcnt 1000000 
OK cnt=2000000 


linux> ./goodcnt 1000000 
OK cnt=2000000 


旁 注 进度 图 的 局 限 性 


进度 图 给 了 我 们 一 种 较 好 的 方法 ， 将 在 单 处 理 器 上 的 并 发 程序 执行 可 视 化 ， 也 帮助 
我 们 理解 为 什么 需要 同步 。 然 而 ， 它 们 确实 也 有 局 限 性 ， 特 别 是 对 于 在 多 处 理 器 上 的 并 
发 执行 ， 在 多 处 理 器 上 一 组 CPU/ 高 速 缓存 对 共享 同一 个 主 存 。 多 处 理 器 的 工作 方式 是 
进度 图 不 能 解释 的 。 特 别 是 ， 一 个 多 处 理 器 内 存 系统 可 以 处 于 一 种 状态 ， 不 对 应 于 进度 
图 中 任何 轨迹 线 。 不 管 如 何 ， 结 论 总 是 一 样 的 : 无 论 是 在 单 处 理 器 还 是 多 处 理 器 上 运行 
程序 ， 都 要 同步 你 对 共享 变量 的 访问 。 


12.5.4 利用 信号 量 来 调度 共享 资源 


除了 提供 互 太 之 外 ， 信 号 量 的 另 一 个 重要 作用 是 调度 对 共享 资源 的 访问 。 在 这 种 场景 
中 ， 一 个 线程 用 信和 号 量 操 作 来 通知 另 一 个 线程 ， 程 序 状 态 中 的 某 个 条 件 已 经 为 真 了 。 两 个 
经 典 而 有 用 的 例子 是 生产 者 -消费 者 和 读者 - 写 者 问题 。 

1. 生产 者 -消费 者 问题 

图 12-23 给 出 了 生产 者 -消费 者 问题 。 生 产 者 和 消费 者 线程 共享 一 个 有 nn 个 模 的 有 限 缓冲 
区 。 生 产 者 线程 反复 地 生成 新 的 项 目 (item)， 并 把 它们 插入 到 缓冲 区 中 。 消 费 者 线程 不 断 地 
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从 缓冲 区 中 取出 这 些 项 目 ， 然 后 消费 (使 用 ) 它 们 。 也 可 能 有 多 个 生产 者 和 消费 者 的 变种 。 


生产 者 线程 有 限 的 缓冲 区 消费 者 线程 


图 12-23 ”生产 者 -消费 者 问题 。 生 产 者 产生 项 目 并 把 它们 插入 到 一 个 有 限 的 缓冲 区 中 。 
消费 者 从 缓冲 区 中 取出 这 些 项 目 ， 然 后 消费 它们 


因为 插入 和 取出 项 目 都 涉及 更 新 共享 变量 ， 所 以 我 们 必须 保证 对 缓冲 区 的 访问 是 互 斥 
的 。 但 是 只 保证 互 斥 访问 是 不 够 的 ， 我 们 还 需要 调度 对 缓冲 区 的 访问 。 如 果 缓 冲 区 是 满 的 
(没有 空 的 槽 位 ，)， 那 么 生产 者 必须 等 待 直到 有 一 个 槽 位 变 为 可 用 。 与 之 相似 ， 如 果 缓 冲 区 
是 空 的 (没有 可 取 用 的 项 目 )， 那 么 消费 者 必须 等 待 直到 有 一 个 项 目 变 为 可 用 。 

生产 者 -消费 者 的 相互 作用 在 现实 系统 中 是 很 普遍 的 。 例 如 ， 在 一 个 多 媒体 系统 中 ， 
生产 者 编码 视频 帧 ， 而 消费 者 解码 并 在 屏幕 上 呈现 出 来 。 缓 冲 区 的 目的 是 为 了 减少 视频 流 
的 抖动 ， 而 这 种 抖动 是 由 各 个 由 的 编码 和 解码 时 与 数据 相关 的 差异 引起 的 。 缓 冲 区 为 生产 
者 提供 了 一 个 覃 位 池 ， 而 为 消费 者 提供 一 个 已 编码 的 帧 地 。 另 一 个 常见 的 示例 是 图 形 用 户 
接口 设计 。 生 产 者 检测 到 鼠标 和 键盘 事件 ， 并 将 它们 插入 到 缓冲 区 中 。 消 费 者 以 某 种 基于 
优先 级 的 方式 从 缓冲 区 取出 这 些 事件 ， 并 显示 在 屏幕 上 。 

在 本 节 中 ， 我 们 将 开发 一 个 简单 的 包 ， 叫 做 SBUF， 用 来 构造 生产 者 -消费 者 程序 。 
在 下 一 节 里 ， 我 们 会 看 到 如 何 用 它 来 构造 一 个 基于 预 线程 化 (prethreading) 的 有 趣 的 并 发 
服务 器 。SBUF 操作 类 型 为 sbuf t 的 有 限 缓冲 区 (图 12-24)。 项 目 存 放 在 一 个 动态 分 配 的 
n 项 整数 数组 (puf) 中 。front 和 rear 索引 值 记录 该 数组 中 的 第 一 项 和 最 后 一 项 。 三 个 信 
号 量 同步 对 缓冲 区 的 访问 。mutex 信和 号 量 提供 互 斥 的 缓冲 区 访问 。slots 和 items 信号 量 
分 别 记录 空 槽 位 和 可 用 项 目的 数量 。 


code/conc/sbufh 
1 typedef struct 1 
2 int *buf; /* Buffer array */ 
3 int n; /* Maximum number of slots */ 
4 int front; /* buf[(front+1)%n] is first item */ 
5 int rear; /* buf[rear%n] is last item */ 
6 sem_t mutex; /* Protects accesses to buf */ 
7 sem t slots; /* Counts available slots */ 
8 sem_t items; /* Counts available items */ 
9 下 Bbiue. tb: 
code/conc/sbuf.h 


图 12-24 sbuf t; SBUF 包 使 用 的 有 限 缓冲 区 


图 12-25 给 出 了 SBUF 函数 的 实现 。sbuf init 函数 为 缓冲 区 分 配 堆 内 存 ， 设 置 
front 和 rear 表示 一 个 空 的 缓冲 区 ， 并 为 三 个 信号 量 赋 初 始 值 。 这 个 函数 在 调用 其 他 三 
个 函数 中 的 任何 一 个 之 前 调用 一 次 。sbuf deinit 困 数 是 当 应 用 程序 使 用 完 缓 冲 区 时 ， 释 
放 缓 冲 区 存储 的 。sbuf insert 图 数 等 待 一 个 可 用 的 覃 位 ， 对 互 斥 锁 加 锁 ， 添 加 项 目 ， 对 
互 斥 锁 解 锁 ， 然 后 宣布 有 一 个 新 项 目 可 用 。sbuf _ remove 图 数 是 与 sbuf insert 函数 对 
称 的 。 在 等 待 一 个 可 用 的 缓冲 区 项 目 之 后 ， 对 互 斥 锁 加 锁 ， 从 缓冲 区 的 前 面 取出 该 项 目 ， 
对 互 斥 锁 解 锁 ， 然 后 发 信号 通知 一 个 新 的 槽 位 可 供 使 用 。 
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code/conc/sbuf.c 

#include "csapp.h" 

#include "sbuf.h" 

/* Create an empty, bounded, shared FIF0 buffer with n slots */ 

void sbuf_init(sbuf_t *sp, int n) 

sp->buf = Calloc(n, sizeof (int)); 
sp->n = 也 ; /* Buffer holds max of n items */ 
sp->front = sp->rear = 0; /* Empty buffer iff front == rear */ 
Sem_init(&sp->mutex, 0, 1); /* Binary semaphore for locking */ 
Sem_init(&sp->slots, 0, n); /* Initially, buf has n empty slots */ 
Sem_init(&sp->items, 0, 0); /* Initially, buf has zero data items */ 

} 

/* Clean up buffer sp */ 

void sbuf_deinit(sbuf_t *sp) 

t 
Free(sp->buf); 

} 

/* Insert item onto the rear of shared buffer sp */ 

void sbuf_insert(sbuf_t *sp, int item) 

{ 
P(&sp->slots); /* Wait for available slot */ 
Pl(&sp->mutex); /* Lock the buffer */ 
sp->buf [(++sp->rear)%(sp->n)] = item; /* Insert the item */ 
V(&sp->mutex); /* Unlock the buffer */ 
V(&sp->items); /* Announce available item */ 

} 

/* Remove and return the first item from buffer sp */ 

int sbuf_remove(sbuf_t *sp) 

{ 
int item; 
P(&sp->items); /* Wait for available item */ 
P(&sp->mutex); /* Lock the buffer */ 
item = sp->buf [(++sp->front)%(sp->n)]; /* Remove the item */ 
V(&sp->mutex); /* Unlock the buffer */ 
Vl(&sp->slots); /* Announce available slot */ 
return item; 

} 

code/conc/sbuf.c 


图 12-25 SBUF: 同步 对 有 限 缓 冲 区 并 发 访问 的 包 


识 豆 练习 题 12.9 设 妃 表示 生产 者 数量 ，c 表示 消费 者 数量 ， 而 nn 表示 以 项 目 单元 为 单位 


的 缓冲 区 大 小 。 对 于 下 面 的 每 个 场景 ， 指 出 sbuf_ insert 和 sbuf remove 中 的 互 斤 
锁 信 号 量 是 否 是 必需 的 。 

A. p=1, c=1, n>1 

B. p=1, c=1, n=1 

CG p>ls els A=1 

2. 读者 - 写 者 问题 

读者 - 写 者 问题 是 互 不 问题 的 一 个 概括 。 一 组 并 发 的 线程 要 访问 一 个 共享 对 象 ， 例 如 
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一 个 主 存 中 的 数据 结构 ， 或 者 一 个 磁盘 上 的 数据 库 。 有 些 线程 只 读 对 象 ， 而 其 他 的 线程 只 
修改 对 象 。 修 改 对 象 的 线程 叫做 写 者 。 只 读 对 象 的 线程 叫做 读者 。 写 者 必须 拥有 对 对 象 的 
独占 的 访问 ， 而 读者 可 以 和 无 限 多 个 其 他 的 读者 共享 对 象 。 一 般 来 说 ， 有 无 限 多 个 并 发 的 
读者 和 写 者 。 

读者 - 写 者 交互 在 现实 系统 中 很 常见 。 例 如 ， 一 个 在 线 航 空 预定 系统 中 ， 人 允许 有 
无 限 多 个 客户 同时 查看 座位 分 配 ， 但 是 正在 预订 座位 的 客户 必须 拥有 对 数据 库 的 独占 
的 访问 。 再 来 看 男 一 个 例子 ， 在 一 个 多 线程 缓存 Web 代理 中 ， 无限 多 个 线程 可 以 从 
共享 页 面 缓存 中 取出 已 有 的 页 面 ， 但 是 任何 回 缓存 中 写 人 一 个 新 页 面 的 线程 必须 拥有 
独占 的 访问 。 

读者 - 写 者 问题 有 几 个 变种 ， 分 别 基 于 读者 和 写 者 的 优先 级 。 第 一 类 读者 - 写 者 问题 ， 读 


者 优先 ， 要 求 不 要 让 读者 等 待 ， 除 非 已 经 
把 使 用 对 象 的 权限 赋予 了 一 个 写 者 。 换 何 
话说 ， 读 者 不 会 因为 有 一 个 写 者 在 等 待 而 
等 待 。 第 二 类 读者 - 写 者 问题 ， 写 者 优先 ， 
要 求 一 旦 一 个 写 者 准备 好 可 以 写 ， 它 就 会 
尽 可 能 快 地 完成 它 的 写 操作 。 同 第 一 类 问 
题 不 同 ， 在 一 个 写 者 后 到 达 的 读者 必须 等 
待 ， 即 使 这 个 写 者 也 是 在 等 待 。 

图 12-26 给 出 了 一 个 对 第 一 类 读者 - 
写 者 问题 的 解答 。 同 许多 同步 问题 的 解 
答 一 样 ， 这 个 解答 很 微妙 ， 极 具 欺 骗 性 
地 简单 。 信 号 量 w 控制 对 访问 共享 对 象 
的 临界 区 的 访问 。 信 号 量 mutex 保护 对 
共享 变量 readcnt 的 访问 ，readcnt 统 
计 当 前 在 临界 区 中 的 读者 数量 。 每 当 一 
个 写 者 进入 临界 区 时 ， 它 对 互 斥 锁 w 加 
锁 ， 每 当 它 离开 临界 区 时 ， 对 ww 解锁 。 
这 就 保证 了 任意 时 刻 临 界 区 中 最 多 只 有 
一 林 写 者 。 另 一 方面 ， 只 有 党 二 个 进 
临界 区 的 读者 对 w 加 锁 ， 而 只 有 最 后 一 
个 离开 临界 区 的 读者 对 w 解锁 。 当 一 个 
读者 进入 和 离开 临界 区 时 ， 如 果 还 有 其 
他 读者 在 临界 区 中 ， 那 么 这 个 读者 会 忽 
略 互 斥 锁 w。 这 就 意味 着 只 要 还 有 一 个 读 
者 占用 互 斥 锁 w， 无 限 多 数量 的 读者 可 以 
没有 障碍 地 进入 临界 区 。 

对 这 两 种 读者 - 写 者 问题 的 正确 解答 
可 能 导致 饥饿 (starvation)， 饥 饿 就 是 一 
个 线程 无 限期 地 阻塞 ， 无 法 进展 。 例 如 ， 
图 12-26 所 示 的 解答 中 ， 如 果 有 读者 不 断 
地 到 达 ， 写 者 就 可 能 无 限期 地 等 待 。 


/* Global variables */ 
int readcnt ; /* Initially = 0 */ 
sem_t mutex, w; /* Both initially = 1 */ 


void reader (void) 
{ 
while (1) { 
P(&mutex) ; 
readcnt++; 
if (readcnt == 1) /* First in */ 
P(g&w); 
V(&mutex); 


/* Critical section */ 
/* Reading happens */ 


P(&mutex) ; 
Teadcnt -一 ; 
if (readcnt == 0) /* Last out */ 
V(&w); 
V(Cgmutex) ; 
小 
要 


void writer(void) 
{ 
while (1) { 
P(&w) ; 


/* Critical section */ 
/* Writing happens */ 


VCgw) ; 





图 12-26 ”对 第 一 类 读者 - 写 者 问题 的 解答 。 
读者 优先 级 高 于 写 者 
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证 强 练习 题 12. 10 图 12-26 所 示 的 对 第 一 类 读者 - 写 者 问题 的 解答 给 予 读者 较 高 的 优先 
级 ,但 是 从 某 种 意义 上 说 ， 这 种 优先 级 是 很 弱 的 ， 因 为 一 个 离开 临界 区 的 写 者 可 能 重 
启 一 个 在 等 待 的 写 者 ， 而 不 是 一 个 在 等 待 的 读者 。 描 述 出 一 个 场景 ， 其 中 这 种 弱 优 先 
级 会 导致 一 群 写 者 使 得 一 个 读者 饥 俄 。 


EB3 其 他 同步 机 制 

我 们 已 经 向 你 展示 了 如 和 何 利用 信号 量 来 同步 线程 ， 主 要 是 因为 它们 简单 、 经 典 ， 并 且 
有 一 个 清晰 的 语义 模型 。 但 是 你 应 该 知道 还 是 存在 着 其 他 同步 技术 的 。 例 如 ，java 线程 是 
用 一 种 叫做 Java 监控 器 (Java Monitor)[L48j] 的 机 制 来 同步 的 ， 它 提供 了 对 信号 量 互 斥 和 调 
度 能 力 的 更 高 级 别 的 抽象 ; 实际 上 ， 监 控 器 可 以 用 信号 量 来 实现 。 再 来 看 一 个 例子 ， 
Pthreads 接口 定义 了 一 组 对 互 斥 锁 和 条 件 变量 的 同步 操作 。Pthreads 互 斥 锁 被 用 来 实现 互 
斥 。 条 件 变量 用 来 调度 对 共享 资源 的 访问 ， 例如 在 一 个 生产 者 -消费 者 程序 中 的 有 限 缓 冲 区 。 


12. 5.5 综合 : 基于 预 线 程 化 的 并 发 服务 器 


我 们 已 经 知道 了 如 何 使 用 信号 量 来 访问 共享 变量 和 调度 对 共享 资源 的 访问 。 为 了 帮助 
你 更 清晰 地 理解 这 些 思 想 ， 让 我 们 把 它们 应 用 到 一 个 基于 称 为 预 线程 化 (prethreading ) 技 
术 的 并 发 服务 右上 。 

在 图 12-14 所 示 的 并 发 服务 器 中 ， 我 们 为 每 一 个 新 客户 端 创建 了 一 个 新 线程 。 这 种 方 
法 的 缺点 是 我 们 为 每 一 个 新 客户 端 创建 一 个 新 线程 ， 导 致 不 小 的 代价 。 一 个 基于 预 线 程 化 
的 服务 器 试图 通过 使 用 如 图 12-27 所 示 的 生产 者 -消费 者 模型 来 降低 这 种 开销 。 服 务 套 是 
由 一 个 主线 程 和 一 组 工作 者 线程 构成 的 。 主 线程 不 断 地 接受 来 自 客户 端的 连接 请 求 ， 并 将 
得 到 的 连接 描述 符 放 在 一 个 有 限 缓冲 区 中 。 每 一 个 工作 者 线程 反复 地 从 共享 缓冲 区 中 取出 
描述 符 ， 为 客户 端 服务 ， 然 后 等 待 下 一 个 描述 符 。 


服务 客户 端 工作 者 线程 池 
客户 端 仆 、 7 工作 者 线程 






服务 客户 端 


图 12-27 ” 预 线程 化 的 并 发 服务 器 的 组 织 结 构 。 一 组 现 有 的 线程 不 断 地 取出 
和 处 理 来 自 有 限 缓冲 区 的 已 连接 描述 符 


12-28 显示 了 我 们 怎样 用 SBUF 包 来 实现 一 个 预 线 程 化 的 并 发 echo 服务 器 。 在 初 怒 
化 了 缓冲 区 sbuf (第 24 行 ) 后 ， 主 线程 创建 了 一 组 工作 者 线程 (第 25 一 26 行 )。 然 后 它 进 
入 了 无 限 的 服务 器 循环 ， 接 受 连 接 请 求 ， 并 将 得 到 的 已 连接 描述 符 插 人 到 缓冲 区 sbuf 中 。 
每 个 工作 者 线程 的 行为 都 非常 简单 。 它 等 待 直到 它 能 从 缓冲 区 中 取出 一 个 已 连接 描述 符 
(第 39 行 )， 然 后 调用 echo cnt 图 数 回 送 客户 端的 输入 。 

图 12-29 所 示 的 函数 echo cnt 是 图 11-22 中 的 echo 函数 的 一 个 版 本 ， 它 在 全 局 变量 
byte_cnt 中 记录 了 从 所 有 客户 端 接 收 到 的 累计 字 节 数 。 这 是 一 段 值 得 研究 的 有 趣 代码 ， 
因为 它 向 你 展示 了 一 个 从 线程 例 程 调用 的 初始 化 程序 包 的 一 般 技 术 。 在 这 种 情况 中 ， 我 们 
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需要 初始 化 byte_cnt 计数 器 和 mutex 信号 量 。 一 个 方法 是 我 们 为 SBUF 和 RIO 程序 包 
使 用 过 的 ， 它 要 求 主 线程 显 式 地 调用 一 个 初始 化 函数 。 另 外 一 个 方法 ， 在 此 显示 的 ， 是 当 
第 一 次 有 某 个 线程 调用 echo_cnt 函数 时 ,使 用 pthread_once 函数 (第 19 行 ) 去 调用 初始 化 
子 数 。 这 个 方法 的 优点 是 它 使 程序 包 的 使 用 更 加 容易 。 这 种 方法 的 缺点 是 每 一 次 调用 echo_ 
cnt 都 会 导致 调用 pthread once 函数 ， 而 在 大 多 数 时 候 它 没有 做 什么 有 用 的 事 。 


code/conc/echoservert-pre.c 


1 #include "csapp.h" 

2 #include "sbuf.h" 

3 #define NTHREADS 4 

4 #define SBUFSIZE 16 

5 

6 void echo_cnt(int connfd) ; 

7 void *thread(void *vargp); 

8 

9 sbuf_t sbuf; /* Shared buffer of connected descriptors */ 

10 

11 int main(int argc, char **argv) 

12 4 

13 int i, listenfd, connfd,; 

14 socklen _t clientlen; 

15 struct sockaddr_storage clientaddr; 

16 pthread_t tid; 

17 

18 if (argc != 2) + 

19 fprintf (stderr, "usage: %s <port>\n", argv[0]); 

20 exit (0); 

21 } 

22 listenfd = Open_listenfd(argv[1]); 

23 

24 sbuf_init(&sbuf, SBUFSIZE); 

25 for (i = 0; i < NTHREADS; i++) /* Create worker threads */ 
26 Pthread_create(&tid, NULL, thread, NULL); 

27 

28 while (1) { 

29 clientlen = sizeof(struct Sockaddr_storage) ; 

30 connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
31 sbuf_insert(&sbuf, connfd); /* Insert connfd in buffer */ 
32 } 

33  } 

34 

35 void *thread(void *vargp) 

36 攻 

37 Pthread_detach(pthread_self ()); 

38 while (1) { 

39 int connfd = sbuf _ remove(&sbuf); /* Remove connfd from buffer */ 
40 echo_cnt (connfd); /* Service client */ 
41 Close(connfd) ; 

42 } 

43 > 


code/conc/echoservert-pre.c 


图 12-28 ”一 个 预 线 程 化 的 并 发 echo 服务 器 。 这 个 服务 器 使 用 的 是 
有 一 个 生产 者 和 多 个 消费 者 的 生产 者 -消费 者 模型 
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code/conc/echo-cnt.c 


1 #include "csapp.h" 

2 

3 static int byte_cnt; /* Byte counter */ 

4 static sem_t mutexX ; /* and the mutex that protects it */ 
5 

6 static void init_echo_cnt (void) 

7 

8 Sem_init(&mutex, 0, 1); 

9 byte_cnt = 0; 

10 } 

让 

12 void echo_cnt(int connfd) 

13 { 

14 int 卫 ; 

15 char buf [MAXLINE]; 

16 Tio. TiO:s 

17 static Pthread_once_t once = PTHREAD_ONCE_INIT; 

18 

19 Pthread_once(&once, init_echo_cnt); 

20 Rio_readinitb(&rio, connfd); 

21 while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) 1{ 
22 P(&mutex); 

2 byte_cnt += 1n; 

24 printf("server received %d (%d total) bytes on fd %hd\n", 
25 n, byte_cnt, connfd); 

26 V(&mutex) ; 

27 Rio_writen(connfd, buf, n); 

28 } 

29 } 


code/conc/echo-cnt.c 


网 12-29 ”echo_cnt: echo 的 一 个 版 本 ， 它 对 从 客户 端 接收 的 所 有 字 节 计数 


一 旦 程序 包 被 初始 化 ，echo _cnt 函数 会 初始 化 RIO 带 缓 冲 区 的 I/O 包 ( 第 20 行 )， 
然后 回 送 从 客户 端 接收 到 的 每 一 个 文本 行 。 注 意 ， 在 第 23 一 25 行 中 对 共享 变量 byte_cnt 
的 访问 是 被 P 和 V 操作 保护 的 。 


E33 基于 线程 的 事件 驱动 程序 

I/O 〇 多 路 复 用 不 是 编写 事件 驱动 程序 的 唯一 方法 。 例如， 你 可 能 已 经 注意 到 我 们 刚 
才 开 发 的 并 发 的 预 线程 化 的 服务 器 实际 上 是 一 个 事件 驱动 服务 器 ， 带 有 主线 程 和 工作 者 
线程 的 简单 状态 机 。 主 线程 有 两 种 状态 (“ 等 待 连接 请 求 ” 和 “等 待 可 用 的 缓冲 区 横 
位 ?>) 、 两 个 I/O 事件 (“连接 请 求 到 达 ” 和 “缓冲 区 模 位 变 为 可 用 ”) 和 两 个 转换 (“接受 连 
接 请 求 ” 和 “插入 缓冲 区 项 目 ”)。 类 似 地 ， 每 个 工作 者 线程 有 一 个 状态 (“等 待 可 用 的 组 
冲 项 目 ”)、 一 个 I/ 〇 事件 (“缓冲 区 项 目 变 为 可 用 ”) 和 一 个 转换 (“取出 缓冲 区 项 目 ”)。 


12.6 使 用 线程 提高 并 行 性 
到 目前 为 止 ， 在 对 并 发 的 研究 中 ， 我 们 都 假设 并 发 线程 是 在 单 处理 器 系统 上 执行 的 。 
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然而 ， 大 多 数 现代 机 历 具 有 多 核 处 理 器 。 并 发 程序 通常 在 这 样 的 机 器 上 运行 得 更 快 ， 因 为 
操作 系统 内 核 在 多 个 核 上 并 行 地 调度 这 些 并 发 线程 ， 而 不 是 在 单个 核 上 顺序 地 调度 。 在 像 
迷 忙 的 Web 服务 化 、 数 据 库 服务 器 和 大 型 科学 计算 代码 这 样 的 应 用 中 利用 这 样 的 并 行 
是 至 关 重 要 的 ， 而 且 在 像 Web 浏览 句 、 电 子 表格 处 理 程 序 和 文档 处 理 程 序 这 样 的 主流 应 
用 中 ， 并 行 性 也 变 得 越 来 越 有 用 。 所 有 的 程序 

图 12-30 给 出 了 顺序 、 并 发 和 并 行程 序 之 间 的 
集合 关系 。 所 有 程序 的 集合 能 够 被 划分 成 不 相交 
的 顺序 程序 集合 和 并 发 程序 的 集合 。 写 顺序 程序 
只 有 一 条 逻辑 流 。 写 并 发 程序 有 多 条 并 发 流 。 并 
行程 序 是 一 个 运行 在 多 个 处 理 器 上 的 并 发 程序 。 





因此 ， 并 行程 序 的 集合 是 并 发 程序 集合 的 真子 集 。 图 12-30 ”顺序 、 并 发 和 并 行程 序 
并 行程 序 的 详细 处 理 超 出 了 本 书 讲述 的 范围 ， 集合 之 间 的 关系 


但 是 研究 一 个 非常 简单 的 示例 程序 能 够 帮助 你 理解 并 行 编程 的 一 些 重要 的 方面 。 例 如 ， 考 
虑 我 们 如 何 并 行 地 对 一 列 整数 0，…，n 一 1 求 和 。 当 然 ， 对 于 这 个 特殊 的 问题 ， 有 闭合 形 
式 表达 式 的 解答 ( 译 者 注 : 即 有 现成 的 公式 来 计算 它 ， 即 和 等 于 n(n 一 1)/2), 但 是 尽管 如 
此 ， 它 是 一 个 简洁 和 易于 理解 的 示例 ， 能 让 我 们 对 并 行程 序 做 一 些 有 趣 的 说 明 。 

将 任务 分 配 到 不 同 线程 的 最 直接 方法 是 将 序列 划分 成 上 个 不 相交 的 区 域 ， 然 后 给 上 个 
不 同 的 线程 每 个 分 配 一 个 区 域 。 为 了 简单 ,假设 是 1 的 倍数 ， 这 样 每 个 区 域 有 n/t 个 元 
素 。 让 我 们 来 看 看 多 个 线程 并 行 处 理 分 配给 它们 的 区 域 的 不 同方 法 。 

最 简单 也 最 直接 的 选择 是 将 线程 的 和 放 人 一 个 共享 全 局 变量 中 ， 用 互 斥 锁 保 护 这 个 变 
量 。 图 12-31 给 出 了 我 们 会 如 何 实现 这 种 方法 。 在 第 28 一 33 行 ， 主 线程 创建 对 等 线程 ， 然 后 
等 竺 它们 结束 。 注 意 ， 主 线程 传递 给 每 个 对 等 线程 一 个 小 整数 ， 作 为 唯一 的 线程 ID。 每 个 对 
等 线程 会 用 它 的 线程 卫 来 决定 它 应 该 计算 序列 的 哪 一 部 分 。 这 个 向 对 等 线程 传递 一 个 小 的 
唯一 的 线程 ID 的 思想 是 一 项 通用 技术 ， 许 多 并 行 应 用 中 都 用 到 了 它 。 在 对 等 线程 终止 后 ， 
全 局 变量 gsum 包含 者 最 终 的 和 。 然 后 主线 程 用 闭合 形式 解答 来 验证 结果 (第 36 一 37 行 )。 


code/conc/psum-mutex.c 
#include "csapp.h" 


1 

2 #define MAXTHREADS 32 

3 

4 void *sum_mutex(void *vargp); /* Thread routine */ 

5 

6  /* Global shared variables */ 

7 long gsum = 0; /* Global sum */ 

8 long nelems_per_thread; /* Number of elements to Sum */ 

9 sem_t mutex; /* Mutex to protect global sum */ 
10 

11 int main(int argc, char **argv) 

站 4 

13 long i, nelems, log_nelems, nthreads, myid[MAXTHREADS]; 
14 pthread_t tid[MAXTHREADS] ; 

15 

16 /* Get :input arguments */ 


图 12-31 psum-mutex 的 主 程序 ， 使 用 多 个 线程 将 一 个 序列 元 素 的 和 放 人 
一 个 用 互 斥 锁 保 护 的 共享 全 局 变量 中 


‘OO 0 NO Ww 人 一 


ub 
tn J 一 SO 


/了 2 
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if (argc != 3) +{ 
printf("Usage: %s <nthreads> <log_nelems>\n", argv[0]); 
exit (0); 

nthreads = atoi(argv[1]); 

log_nelems = atoi(argv[2]); 

nelems = (1L << log_nelems); 

nelems_per_thread = nelems / nthreads; 

sem_init(&mutex, 0, 1); 


/* Create peer threads and wait for them to finish */ 
for (i = 0; i < nthreads; i++) + 

myid[i] = i; 

Pthread_create(&tid[i], NULL, sum_mutex, &myid[i]); 
四 
for (i = 0; i < nthreads; i++) 

Pthread_join(tid[i] , NULL); 


/* Check final answer */ 
if (gsum != (nelems * (nelems-1))/2) 


printf ("Error: result=hld\n", gsum); 


exit (0); 


code/conc/psum-muitex.c 
图 12-31 ( 续 ) 


图 12-32 给 出 了 每 个 对 等 线程 执行 的 函数 。 在 第 4 行 中 ,线程 从 线程 参数 中 提取 出 线 
程 ID， 然 后 用 这 个 ID 来 决定 它 要 计算 的 序列 区 域 ( 第 5 一 6 行 )。 在 第 9 一 13 行 中 ， 线程 在 
它 的 那 部 分 序列 上 和 迭代 操作 ， 每 次 欠 代 都 更 新 共享 全 局 变量 gsum。 注 意 ， 我 们 很 小 心地 
用 已 和 Y 互 太 操作 来 保护 每 次 更 新 。 


code/conc/psum-mutex.c 


/* Thread routine for psum-mutex.c */ 
void *sum_mutex(void *vargp) 


long myid = *((long *)vargp); /* Extract the thread ID */ 
long start = myid * nelems._per_thread; /* Start element index */ 
long end = start + nelems_per_thread; /* End element index */ 
long i; 


for (i = start; i < end; i++) { 
Pl(&mutex): 


ESUN += 13 
V(gmutex) ; 
} 
return NULL ; 


code/conc/psum-mutex.c 


图 12-32 ”psum-mutex 的 线程 例 程 。 每 个 对 等 线程 将 各 自 的 和 累加 进 
一 个 用 互 斥 锁 保 护 的 共享 全 局 变量 中 
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我 们 在 一 个 四 核 系 统 上 ， 对 一 个 大 小 为 2 一 2 的 序列 运行 psum- mutex， 测 量 它 的 运 
行 时 间 ( 以 秒 为 单位 ) ， 作 为 线程 数 的 函数 ， 得 到 的 结果 难 懂 又 令 人 奇怪 : 


| 线 和 数 
+ Te 
psum-mutex | 68 | 432 | 719 | 552 | 599 | 
程序 单线 程 顺序 运行 时 非常 慢 ， 几 乎 比 多 线程 并 行 运行 时 慢 了 一 个 数量 级 。 不 仅 如 
此 ， 使 用 的 核 数 越 多 ， 人 性 能 越 差 。 造 成 性 能 差 的 原因 是 相对 于 内 存 更 新 操作 的 开销 ， 同 步 
操作 (P 和 V) 代 价 太 大 。 这 突显 了 并 行 编程 的 一 项 重要 教训 :， 同步 开销 巨大 ， 要 尽 可 能 避 
免 。 如 果 无 可 避免 ， 必 须要 用 尽 可 能 多 的 有 用 计算 弥补 这 个 开销 。 
在 我 们 的 例子 中 ， 一 种 避免 同步 的 方法 是 让 每 个 对 等 线程 在 一 个 私有 变量 中 计算 它 自 
己 的 部 分 和 ， 这 个 私有 变量 不 与 其 他 任何 线程 共享 ， 如 图 12-33 所 示 。 主 线程 (图 中 未 显 
示 ) 定 义 一 个 全 局 数组 psum， 每 个 对 等 线程 i 把 它 的 部 分 和 累积 在 psum[i] 中 。 因 为 小 心 
地 给 了 每 个 对 等 线程 一 个 不 同 的 内 存 位 置 来 更 新 ， 所 以 不 需要 用 互 斥 锁 来 保护 这 些 更 新 。 
唯一 需要 同步 的 地 方 是 主线 程 必须 等 待 所 有 的 子 线程 完成 。 在 对 等 线程 结束 后 ， 主 线程 把 
psum 问 量 的 元 素 加 起 来 ， 得 到 最 终 的 结果 。 
code/conc/psum-array.c 
/* Thread routine for psum-array.c */ 


] 

2 void *sum_array (void *vargp) 

3 “ 字 

4 long myid = *((long *)vargp); /* Extract the thread ID */ 
5 long start = myid * nelems_per._thread; /* Start element index */ 
6 long end = start + nelems_per_thread; /* End element index */ 

7 long i; 

8 

9 for (i = start; i < end; i++) { 

10 psum[myid] += i; 

1] 

12 return NULL ; 

13 


code/conc/psum-array.c 


图 12-33 ”psum-array 的 线程 例 程 。 每 个 对 等 线程 把 它 的 部 分 和 
累积 在 一 个 私有 数组 元 素 中 ,不 与 其 他 任何 对 等 线程 共享 该 元 素 


在 四 核 系统 上 运行 psum- array 时 ， 我 们 看 到 它 比 psum- mutex 运行 得 快 好 几 个 数 
量 级 : 










| | 线程 数 | 
版 + | 1 | | | 
psum-array | 726 | 364 | 191 | 


在 第 5 章 中 ， 我 们 学 习 到 了 如 何 使 用 局 部 变量 来 消除 不 必要 的 内 存 引 用 。 图 12-34 展 
示 了 如 何 应 用 这 项 原则 ， 让 每 个 对 等 线程 把 它 的 部 分 和 累积 在 一 个 局 部 变量 而 不 是 全 局 变 
量 中 。 当 在 四 核 机 器 上 运行 psum- local 时 ， 得 到 一 组 新 的 递减 的 运行 时 间 : 





714 第 三 部 分 程序 间 的 交互 和 通信 











线程 数 
1 






29 


版 本 
pi .00 


code/conc/psum-local.c 


0 





] /* Thread routine for psum-local.c */ 

2 void *sum_local(void *vargp) 

3 苹 

4 long myid = *((long *)vargp); /* Extract the thread ID */ 
5 long start = myid * nelems._per_thread; /* Start element index */ 
6 long end = start + nelems_per_thread; /* End element index */ 

7 long i, sum = 0; 

8 

9 for (i = start; i < end; i++) 荆 

10 sum 十 = i; 

11 3 

12 psum[myid]j = Sum; 

13 return NULL ; 

14 } 


code/conc/psum-local.c 
图 12-34 psum- local 的 线程 例 程 。 每 个 对 等 线程 把 它 的 部 分 和 累积 在 一 个 局 部 变量 中 


从 这 个 练习 可 以 学 习 到 一 个 重要 的 经 验 ， 那 就 是 与 并 行程 序 相 当 环 手 。 对 代码 看 上 去 
很 小 的 改动 可 能 会 对 性 能 有 极 大 的 影 啊 。 


刻画 并 行程 序 的 性 能 

图 12-35 给 出 了 图 12-34 中 程序 
psum- local 的 运行 时 间 ， 它 是 线程 数 
的 函数 。 在 每 个 情况 下 ， 程 序 运 行 在 一 
个 有 四 个 处 理 器 核 的 系统 上 ， 对 一 个 
n 王 2” 个 元 素 的 序列 求 和 。 我 们 看 到 ， 
随 着 线程 数 的 增加 ， 运 行 时 间 下 降 ， 直 
到 增加 到 四 个 线程 ， 此 时 ， 运行 时 间 趋 


时 间 (s) 





于 平稳 ， 甚 至 开始 有 点 增加 。 线程 
在 理想 的 情况 中 ， 我 们 会 期 望 运行 时 ”图 12-35 Psum- local 的 性 能 (图 12-34) 。 用 四 个 
间 随 着 核 数 的 增加 线性 下 降 。 也 就 是 说 ， 处 理 器 核对 一 个 2 个 元 素 序 列 求 和 


我 们 会 期 望 线程 数 每 增加 一 倍 ， 运 行 时 间 就 下 降 一 半 。 确 实 是 这 样 ， 直 到 到 达 达 4 的 时 候 ， 
此 时 四 个 核 中 的 每 一 个 都 忙于 运行 至 少 一 个 线程 。 随 着 线程 数量 的 增加 ， 运 行 时 间 实 际 上 增 
加 了 一 点 儿 ， 这 是 由 于 在 一 个 核 上 多 个 线程 上 下 文 切换 的 开销 。 由 于 这 个 原因 ， 并 行程 序 稼 
第 被 瑟 为 每 个 核 上 只 运行 一 个 线程 。 

虽然 绝对 运行 时 间 是 衡量 程序 性 能 的 终极 标准 ， 但 是 还 是 有 一 些 有 用 的 相对 衡量 标准 能 
够 说 明 并 行程 序 有 多 好 地 利用 了 潜在 的 并 行 性 。 并 行程 序 的 加 速 比 (speedup) 通 常 定义 为 
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有 
p Ts, 
这 里 p 是 处 理 右 核 的 数量 ，Tk 是 在 & 个 核 上 的 运行 时 间 。 这 个 公式 有 了 时 被 称 为 强 扩 展 
(strong scaling)。 当 五 是 程序 顺序 执行 版 本 的 执行 时 间 时 ，S, 称 为 绝对 加 束 比 (absolute 
speedup) 。 当 琅 是 程序 并 行 版 本 在 一 个 核 上 的 执行 时 间 时 ，S, 称 为 相对 加 速 比 (relative 
speedup) 。 绝 对 加 速 比 比 相 对 加 速 比 能 更 真实 地 衡量 并 行 的 好 处 。 即 使 是 当 并 行程 序 在 一 
个 处 理 器 上 运行 时 ， 也 第 常会 受到 同步 开销 的 影响 ， 而 这 些 开 销 会 人 为 地 增加 相对 加 速 比 
的 数值 ， 因 为 它们 增加 了 分 子 的 大 小 。 另 一 方面 ， 绝 对 加 速 比比 相对 加 速 比 更 难以 测量 ， 
因为 测量 绝对 加 速 比 需要 程序 的 两 种 不 同 的 版 本 。 对 于 复杂 的 并 行 代 码 ， 创 建 一 个 独立 的 
顺序 版 本 可 能 不 太 实 际 ， 或 者 因为 代码 太 复 杂 ， 或 者 因为 源 代码 不 可 得 。 
一 种 相关 的 测量 量 称 为 效率 (efficiency)， 定 义 为 
i 
~ B71, 
通常 表示 为 范围 在 (0，100j] 之 间 的 百分比 。 效 率 是 对 由 于 并 行 化 造成 的 开销 的 衡量 。 具 有 
高 效率 的 程序 比 效率 低 的 程序 在 有 用 的 工作 上 花费 更 多 的 时 间 ， 在 同步 和 通信 上 花费 更 少 
的 时 间 。 















行 求 和 示 | 天 四 | 1 | 2 14 | 8 | 1 
at | 清 U 

多 程序 的 各 个 加 速 比 和 效率 测量 值 。 | 运行 时 癌 CF7 | 106 | 054 | 028| 029 | 930 
像 这 样 超过 90% 的 效率 是 非常 好 的 ， | Mn 比 (5) | 1 | 19 | 38 | 37 | 35 


但 是 不 要 被 欺骗 了 。 能 取得 这 么 高 的 
效率 是 因为 我 们 的 问题 非常 容易 并 行 
化 。 在 实际 中 ， 很 少 会 这 样 。 数 十 年 
来 ,并行 编程 一 直 是 一 个 很 活跃 的 研究 领域 。 随 着 商用 多 核 机 器 的 出 现 ， 这 些 机 器 的 核 数 
每 几 年 就 翻 一 番 ， 并 行 编程 会 继续 是 一 个 深入 、 困 难 而 活跃 的 研究 领域 。 

加 速 比 还 有 男 外 一 面 ， 称 为 弱 扩 展 (weak scaling)， 在 增加 处 理 器 数量 的 同时 ， 增 加 
问题 的 规模 ， 这 样 随 着 处 理 咒 数量 的 增加 ， 每 个 处 理 融 执行 的 工作 量 保持 不 变 。 在 这 种 摘 
述 中 ， 加 速 比 和 效率 被 表达 为 单位 时 间 完 成 的 工作 总 量 。 例 如 ， 如 果 将 处 理 咒 数量 翻 倍 ， 
同时 每 个 小 时 也 做 了 两 倍 的 工作 量 ， 那 么 我 们 就 有 线性 的 加 速 比 和 100% 的 效率 。 

弱 扩 展 常 党 是 比 强 扩 展 更 真实 的 衡量 值 ， 因 为 它 更 准确 地 反映 了 我 们 用 更 大 的 机 器 做 
更 多 的 工作 的 愿望 。 对 于 科学 计算 程序 来 说 尤其 如 此 ， 科 学 计算 问题 的 规模 很 容易 增加 ， 
更 大 的 问题 规模 直接 就 意味 着 更 好 地 预测 。 不 过 ， 还 是 有 一 些 应 用 的 规模 不 那么 容易 增 
加 ， 对 于 这 样 的 应 用 ， 强 扩展 是 更 合适 的 。 例 如 ， 实 时 信号 处 理应 用 所 执行 的 工作 量 常常 
是 由 产生 信和 号 的 物理 传感器 的 属性 决定 的 。 改 变 工作 总 量 需 要 用 不 同 的 物理 传感器 ， 这 不 
太 实际 或 者 不 太 必 要 。 对 于 这 类 应 用 ,我们 通常 想 要 用 并 行 来 尽 可 能 快 地 完成 定量 的 
七 作 5 
攻 s 练习 题 12. 11 对 于 下 表 中 的 并 行程 序 ， 填 写 空 白 处 。 假 设 使 用 强 扩展 。 


图 12-36 ”图 12-35 中 执行 时 间 的 加 速 比 和 并 行 效率 







运行 时 间 (7,) 
加 速 比 (5,) 
家 吝 ( 忆 ) wm | | 
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12. 7 其 他 并 发 问题 

你 可 能 已 经 注意 到 了 ,一旦 我 们 要 求 同 步 对 共享 数据 的 访问 ， 那 么 事情 就 变 得 复杂 得 
多 了 。 迄 今 为 止 ; 我 们 已 经 看 到 了 用 于 互 斥 和 生产 者 -消费 者 同步 的 技术 ,但 这 仅仅 是 冰 
山 一 角 。 同 步 从 根本 上 说 是 很 难 的 问题 ， 它 引出 了 在 普通 的 顺序 程序 中 不 会 出 现 的 问题 。 
这 一 小 节 是 关于 你 在 写 并 发 程序 时 需要 注意 的 一 些 问 题 的 (非常 不 完整 的 ) 综 述 。 为 了 让 事 
情 具 体 化 ， 我 们 将 以 线程 为 例 描述 讨论 。 不 过 要 记 住 ， 这 些 典 型 问题 是 任何 类 型 的 并 发 流 
操作 共享 资源 时 都 会 出 现 的 。 


12.7.1 线程 安全 


当 用 线程 编写 程序 时 ， 必 须 小 心地 编写 那些 具有 称 为 线程 安全 性 (thread safety) 属性 
的 函数 。 一 个 函数 被 称 为 线程 安全 的 (thread-safe)， 当 且 仅 当 被 多 个 并 发 线程 反复 地 调用 
时 ， 它 会 一 直 产 生 正确 的 结果 。 如 果 一 个 函数 不 是 线程 安全 的 ， 我 们 就 说 它 是 线程 不 安全 
的 (thread-unsafe) 。 

我 们 能 够 定义 出 四 个 (不 相交 的 ) 线 程 不 安全 函数 类 : 

第 1 类 : 不 保护 共享 变量 的 函数 。 我 们 在 图 12-16 的 thread 函数 中 就 已 经 遇 到 了 这 样 
的 问题 ， 该 函数 对 一 个 未 受 保护 的 全 局 计数 器 变量 加 1。 将 这 类 线程 不 安全 函数 变 成 线程 安 
全 的 ， 相 对 而 言 比较 容易 : 利用 像 已 和 YV 操作 这 样 的 同步 操作 来 保护 共享 的 变量 。 这 个 方法 
的 优点 是 在 调用 程序 中 不 需要 做 任何 修改 。 缺 点 是 同步 操作 将 减 慢 程序 的 执行 时 间 。 

第 2 类 : 保持 跨越 多 个 调用 的 状态 的 函数 。 一 个 伪 随 机 数 生 成 器 是 这 类 线程 不 安全 了 郴 
数 的 简单 例子 。 请 参考 图 12-37 中 的 伪 随 机 数 生成 胡 程 序 包 。rand 函数 是 线程 不 安全 的 ， 
因为 当前 调用 的 结果 依赖 于 前 次 调用 的 中 间 结 果 。 当 调用 srand 为 rand 设置 了 一 个 种 子 
后 ， 我 们 从 一 个 单线 程 中 反复 地 调用 rand， 能 够 预期 得 到 一 个 可 重复 的 随机 数字 序列 。 
然而 ， 如 果 多 线程 调用 rana 函数 ， 这 种 假设 就 不 再 成 立 了 。 

code/conc/rand.c 


unsigned next_seed = 1; 


1 
2 

3 /* Tand - return pseudorandom integer in the range 0..32767 */ 
4 unsigned rand(void) 

军装 

6 next_seed = next_seed*1103515245 + 12543; 

7 return (unsigned) (next_seed>>16) % 32768; 

8 


10  /* srand - set the initial seed for rand() */ 
11 void srand(unsigned new_seed) 


12 1 
13 next_seed = Dew_Seed ; 
14 } 


code/conc/rand.c 
图 12-37 一 个 线程 不 安全 的 伪 随 机 数 生 成 器 (基于 | 61j]) 


使 得 像 rand 这 样 的 晒 数 线程 安全 的 唯一 方式 是 重 写 它 ， 使 得 它 不 再 使 用 任何 static 
数据 ， 而 是 依靠 调用 者 在 参数 中 传递 状态 信息 。 这 样 做 的 缺点 是 ， 程 序 员 现在 还 要 被 迫 修 
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改 调用 程序 中 的 代码 。 在 一 个 大 的 程序 中 ， 可 能 有 成 百 上 千 个 不 同 的 调用 位 置 ， 做 这 样 的 
修改 将 是 非常 且 烦 的 ， 而 且 容 易 出 错 ，。 

第 3 类 : 返回 指向 静态 变量 的 指针 的 函数 。 革 些 困 数 ， 例 如 ctime 和 gethost- 
byname， 将 计算 结果 放 在 一 个 static 变量 中 ， 然 后 返回 一 个 指向 这 个 变量 的 指针 。 如 果 我 
们 从 并 发 线程 中 调用 这 些 函 数 ， 那 么 将 可 能 发 生 灾 难 ， 因 为 正在 被 一 个 线程 使 用 的 结果 会 
被 另 一 个 线程 悄悄 地 覆盖 了 。 

有 两 种 方法 来 处 理 这 类 线程 不 安全 函数 。 一 种 选择 是 重 写 顺 数 ， 使 得 调用 者 传递 存放 结 
果 的 变量 的 地 址 。 这 就 消除 了 所 有 共享 数据 ， 但 是 它 要 求 程 序 员 能 够 修改 函数 的 源 代码 。 

如 果 线 程 不 安全 图 数 是 难以 修改 或 不 可 能 修改 的 (例如 ， 代 码 非 常 复杂 或 是 没有 源 代 
码 可 用 )， 那 么 为 外 一 种 选择 就 是 使 用 加 锁 - 复 制 (lock-and-copy) 技 术 。 基 本 思想 是 将 线程 
不 安全 中 数 与 互 厂 锁 联系 起 来 。 在 每 一 个 调用 位 置 ， 对 互 斥 锁 加 锁 ， 调 用 线程 不 安全 函 
数 ， 将 函数 返回 的 结果 复制 到 一 个 私有 的 内 存 位 置 ， 然 后 对 互 斥 锁 解 锁 。 为 了 尽 可 能 地 减 
少 对 调用 者 的 修改 ， 你 应 该 定义 一 个 线程 安全 的 包装 函数 ， 它 执行 加 锁 - 复 制 ， 然 后 通过 
调用 这 个 包装 函数 来 取代 所 有 对 线程 不 安全 郴 数 的 调用 。 例 如 ， 图 12-38 给 出 了 ctime 的 
一 个 线程 安全 的 版 本 ， 利 用 的 就 是 加 锁 - 复 制 技术 。 

code/conc/ctime-ts.c 
char *ctime_ts(const time_t *timep, char *privatep) 


1 

2 蕊 

3 char *sharedp; 

4 

5 P(&mutex); 

6 sharedp = ctime(timep) ; 

7 strcpy (privatep, sharedp); /* Copy string from shared to private */ 
8 V(&mutex); 

9 return privatep; 

10 3} 


code/conc/ctime-ts.c 


图 12-38 C 标准 库 函 数 ctime 的 线程 安全 的 包装 函数 。 使 用 加 锁 - 复 制 技术 
调用 一 个 第 3 类 线程 不 安全 函数 


第 4 类 : 调用 线程 不 安全 函数 的 函数 。 如 果 限 数 f 调用 线程 不 安全 函数 g， 那 么 f 就 
是 线程 不 安全 的 吗 ? 不 一 定 。 如 果 g 是 第 2 类 了 芳 数 ， 即 依赖 于 跨越 多 次 调用 的 状态 ， 那 么 
ff 也 是 线程 不 安全 的 ， 而 且 除 了 重 写 g 以 外 ， 没 有 什么 办 法 。 然 而 ， 如 果 g 是 第 1 类 或 者 
第 3 类 卫 数 ， 那 么 只 要 你 用 一 个 互 斥 锁 保 护 调用 位 置 和 任何 得 到 的 共享 数据 ，f 仍然 可 能 
是 线程 安全 的 。 在 图 12-38 中 我 们 看 到 了 一 个 这 种 情况 很 好 的 示例 ， 其 中 我 们 使 用 加 锁 - 
复制 编写 了 一 个 线程 安全 函数 ， 它 调用 了 一 个 线程 不 安全 的 函数 。 





12.7.2 可 重 入 性 i 
有 一 类 重要 的 线程 安全 函数 ， 叫 做 可 重 入 函 线程 安全 函数 
数 (reentrant function)， 其 特点 在 于 它们 有 具有 这 线程 不 安全 函数 
样 一 种 属性 ， 当 它们 被 多 个 线程 调用 时 ， 不 会 引 可 醒 人 函数 
用 任何 共享 数据 。 尽 管线 程 安全 和 可 重 入 有 时 会 
(不 正确 地 ) 被 用 做 同义词 ， 但 是 它们 之 间 还 是 有 网 1? 39 可 重 人 函数 、 线 程 安全 函数 和 线程 


清晰 的 技术 差别 ， 值 得 留意 。 图 12-39 展示 了 可 不 安全 函数 之 间 的 集合 关系 
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重 人 人 函数、 线程 安全 函数 和 线程 不 安全 函数 之 间 的 集合 关系 。 所 有 涵 数 的 集合 被 划分 成 不 

相交 的 线程 安全 和 线程 不 安全 函数 集合 。 可 重 入 函数 集合 是 线程 安全 函数 的 一 个 真子 集 。 
可 重信 函数 通常 要 比 不 可 重 人 的 线程 安全 的 函数 高 效 一 些 ， 因 为 它们 不 需要 同步 操 

作 。 更 进一步 来 说 ， 将 第 2 类 线程 不 安全 图 数 转 化 为 线程 安全 图 数 的 唯一 方法 就 是 重 与 

它 ， 使 之 变 为 可 重信 的 。 例 如， 图 12-40 展示 了 图 12-37 中 rand 图 数 的 一 个 可 重信 的 版 

本 。 关 键 思想 是 我 们 用 一 个 调用 者 传递 进来 的 指针 取代 了 静态 的 next 变量 。 

code/conc/rand-r.c 
/* rand_r - return a pseudorandom integer on 0..32767 */ 


: 
2 int rand_r(unsigned int *nextp) 

和 

4 *nextp = *nextp * 1103515245 + 12345 

5 return (unsigned int) (*nextp / 65536) % 32768; 
6 


code/conc/rand-r.c 


图 12-40 ”rand r: 图 12-37 中 的 rand 函数 的 可 重 入 版 本 


检查 某 个 函数 的 代码 并 先 验 地 断定 它 是 可 重 人 的 ， 这 可 能 吗 ? 不 溺 的 是 ， 不 一 定 能 这 
样 。 如 果 所 有 的 函数 参数 都 是 传 值 传递 的 ( 即 没有 指针 )， 并 且 所 有 的 数据 引用 都 是 本 地 的 
自动 栈 变 量 ( 即 没有 引用 静态 或 全 局 变量 )， 那 么 图 数 就 是 显 式 可 重 入 的 (explicitly reen- 
trant) ， 也 就 是 说 ， 无 论 它 是 被 如 何 调用 的 ， 都 可 以 断言 它 是 可 重信 人 的。 

然而 ， 如 果 把 假设 放宽 松 一 点 ， 人 允许 显 式 可 重 入 函数 中 一 些 参 数 是 引用 传递 的 ( 即 允 
许 它们 传递 指针 )， 那 么 我 们 就 得 到 了 一 个 隐 式 可 重 入 的 (implicitly reentrant) 图 数 ， 也 就 
是 说 ， 如 果 调 用 线程 小 心地 传递 指向 非 共 享 数据 的 指针 ， 那 么 它 是 可 重 入 的 。 例 如 ， 图 
12-40 中 的 rand_r 函数 就 是 隐 式 可 重 入 的 。 

我 们 总 是 使 用 术语 可 重 入 的 (reentrant) 既 包括 显 式 可 重 和 人 函数 也 包括 隐 式 可 重信 郴 
数 。 然 而 ， 认 识 到 可 重信 性 有 时 既是 调用 者 也 是 被 调用 者 的 属性 ， 并 不 只 是 被 调用 者 单独 
的 属性 是 非常 重要 的 。 

区 S 治 练习 题 12. 12 ”图 12-38 中 的 ctime ts 函 数 是 线程 安全 的 ， 但 不 是 可 重 入 的 。 请 解释 说 明 。 


12. 7.3 在 线程 化 的 程序 中 使 用 已 存在 的 库 函 数 


大 多 数 Linux 函数 ， 包 括 定 义 在 标准 C 库 中 的 函数 (例如 malloc、free、realloc、 
printf 和 scanf) 都 是 线程 安全 的 ， 只 有 一 小 部 分 是 例外 。 12-41 列 出 了 第 见 的 例外 。 
(参考 [110] 可 以 得 到 一 个 完整 的 列表 。) strtok 函数 是 一 个 已 弃 用 的 (不 推荐 使 用 ) 郴 数 。 
asctime、ctime 和 localtime 函数 是 在 不 同时 间 和 数据 格式 间 相 互 来 回转 换 时 经 党 使 用 
的 函数 。gethostbyname、gethostbyadqr 和 inet ntoa 图 数 是 已 弃 用 的 网 络 编程 肯 
数 ， 已 经 分 别 被 可 重 人 的 getaddrinfo、getnameinfo 和 inet ntop 图 数 取 代 ( 见 第 11 
章 )。 除 了 rand 和 strtok 以 外 ， 所 有 这 些 线程 不 安全 函数 都 是 第 3 类 的 ， 它们 返回 一 个 
指向 静态 变量 的 指针 。 如 果 我 们 需要 在 一 个 线程 化 的 程序 中 调用 这 些 困 数 中 的 茶 一 个 ， 对 
调用 者 来 说 最 不 著 麻 烦 的 方法 是 加 锁 -复制 。 然 而 ， 加 锁 - 复 制 方法 有 许多 缺点 。 背 先 ， 人 额 
外 的 同步 降低 了 程序 的 速度 。 第 二 ， 像 gethostbyname 这 样 的 函数 返回 指 问 复杂 结构 的 
结构 的 指针 ， 要 复制 整个 结构 层次 ， 需 要 深层 复制 (deep copy) 结 构 。 第 三 ， 加 锁 - 复 制 方 
法 对 像 rand 这 样 依赖 跨越 调用 的 静态 状态 的 第 2 类 函数 并 不 有 效 。 
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线程 不 安全 函数 线程 不 安全 类 Linux 线程 安全 版 本 


rand rand_r 
strtok 


asctime 


StrtoKk. Tt 


asctime_r 
ctime_r 
Eethostbyaddr_r 
Eethostbyname_r 
(无 ) 


localtime_r 
图 12-41 常见 的 线程 不 安全 的 库 消 数 
因此 ，Linux 系统 提供 大 多 数 线程 不 安 人 全顺 数 的 可 重 人 版 本 。 可 重 人 版 本 的 名 字 总 是 


以 “rr” 后 缀 结尾。 例如 ，asctime 的 可 重 人 版 本 就 叫做 asctime rz。 我 们 建议 尽 可 能 地 
使 用 这 些 孔 数 ，。 


ctime 
gethostbyaddr 
gethostbyname 
inet_ntoa 





(DD DN ND 


localtime 


12.7.4 竞争 


当 一 个 程序 的 正确 性 依赖 于 一 个 线程 要 在 男 一 个 线程 到 达 y 点 之 前 到 达 它 的 控制 流 中 的 zz 点 
时 ， 就 会 发 生 竞争 (race) 。 通 向 发 生 竞争 是 因为 程序 员 假 定 线程 将 按照 某 种 特殊 的 轨迹 线 穿 过 执行 
状态 空间 ， 而 忘记 了 男 一 条 准则 规定 ， 多 线程 的 程序 必须 对 任何 可 行 的 轨迹 线 都 正确 工作 。 

例子 是 理解 竞争 本 质 的 最 简单 的 方法 。 让 我 们 来 看 看 图 12-42 中 的 简单 程序 。 主 线程 创 
建 了 四 个 对 等 线程 ， 并 传递 一 个 指 问 一 个 唯一 的 整数 ID 的 指针 到 每 个 线程 。 每 个 对 等 线程 
复制 它 的 参数 中 传递 的 ID 到 一 个 局 部 变量 中 (第 22 行 )， 然 后 输出 一 个 包含 这 个 ID 的 信息 。 
它 看 上 去 足够 简单 ， 但 是 当 我 们 在 系统 上 运行 这 个 程序 时 ， 我 们 得 到 以 下 不 正确 的 结果 : 

linux> ./race 

Hello from thread 1 

Hello from thread 3 

Hello from thread 2 

Hello from thread 3 


code/conc/race.c 
/* WARNING: This code is buggy! */ 


1 
2 #include "csapp.h" 

3 #define N 4 

4 

5 void *thread(void *vargp); 

6 

7 int main() 

8 + 

9 pthread_t tid[N]; 

10 0 LL: 

11 

12 for (i = 0; i < N; i++) 

13 Pthread_create(&tid[i], NULL, thread, &i); 
14 for (i = 0; i < N; i++) 

15 Pthread_join(tid[il], NULL); 
16 exit(0); 

17 } 


图 12-42 一 个 具有 竞争 的 程序 
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19 /* Thread routine */ 
20 void *thread(void *vargp) 


21 { 

22 int myid = *((int *)vargp); 

23 printf("Hello from thread %hd\n", myid); 
24 return NULL ; 

25 


code/conc/race.c 
图 12-42 ( 续 ) 


问题 是 由 每 个 对 等 线程 和 主线 程 之 间 的 竞争 引起 的 。 你 能 发 现 这 个 将 争 吗 ? 下 面 是 发 
生 的 情况 。 当 主线 程 在 第 13 行 创 建 了 一 个 对 等 线程 ， 它 传递 了 一 个 指 回 本 地 栈 变量 ;的 
指针 。 在 此 时 ， 竞 争 出 现在 下 一 次 在 第 12 行 对 i 加 1 和 第 22 行 参数 的 间接 引用 和 赋值 之 
间 。 如 果 对 等 线程 在 主线 程 执行 第 12 行 对 i 加 1 之 前 就 执行 了 第 22 行 ,那么 myid 变量 
就 得 到 正确 的 ID。 否则 ， 它 包含 的 就 会 是 其 他 线程 的 ID。 令 人 惊慌 的 是 ， 我 们 是 否 得 到 
正确 的 答案 依赖 于 内 核 是 如 何 调度 线程 的 执行 的 。 在 我 们 的 系统 中 它 失 败 了 ， 但 是 在 其 他 
系统 中 ， 它 可 能 就 能 正确 工作 ， 让 程序 员 “ 幸 福地 ”察觉 不 到 程序 的 严重 错误 。 

为 了 消除 竞争 ， 我 们 可 以 动态 地 为 每 个 整数 ID 分 配 一 个 独立 的 块 ， 并 且 传 递 给 线程 
例 程 一 个 指向 这 个 块 的 指针 ， 如 图 12-43 所 示 ( 第 12 一 14 行 )。 请 注意 线程 例 程 必须 释放 
这 些 块 以 避免 内 存 泄漏 。 


code/conc/norace.c 


] #include "csapp.h" 

2 #define N 4 

3 

4 void *thread(void *vargp); 

5 

6 int main() 

A 

8 pthread_t tid[N] ; 

9 int i, *ptr; 

10 

11 for (i = 0; i < N; i++) +{ 

12 ptr = Malloc(sizeof (int)); 
13 *ptr = i; 

14 Pthread_create(&tid[i], NULL, thread, ptr); 
15 } 

16 £0 《i 二 D3 主 < NW; 14+) 

17 Pthread_join(tid[i] ，NULL) ; 
18 exit (0); 

19 } 

20 

21 /* Thread routine */ 

22 void *thread(void *vargp) 

23 { 

24 int myid = *((int *)vargp); 

25 Free(vargp) ; 

26 printf("Hello from thread %d\n", myid); 
27 return NULL ; 

28 


code/conc/norace.c 


图 12-43 图 12-42 中 程序 的 一 个 没有 竞争 的 正确 版 本 
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当 我 们 在 系统 上 运行 这 个 程序 时 ， 现 在 得 到 了 正确 的 结果 
linux> ./norace 
Hello from thread 0 
Hello from thread 1 
Hello from thread 2 
Hello from thread 3 
证 弹 练习 题 12. 13 在 图 12-43 中 ， 我 们 可 能 想 要 在 主线 程 中 的 第 14 行 后 立即 流 放 已 分 配 
的 内 存 块 ， 而 不 是 在 对 等 线程 中 释放 它 。 但 是 这 会 是 个 坏 注 意 。 为 什么 ? 
庆 训 练习 题 12. 14 
A. 在 图 12-43 中 ， 我 们 通过 为 每 个 整数 ID 分 配 一 个 独立 的 块 来 消除 竞争 。 给 出 一 个 
不 调用 malloc 或 者 free 函数 的 不 同 的 方法 。 
B. 这 种 方法 的 利 浆 是 什么 ? 


12. 7.5 死 锁 


信号 量 引 入 了 一 种 浴 在 的 令 人 厌恶 的 运行 时 错误 ， 叫 做 死 锁 (deadlock)， 它 指 的 是 一 
组 线程 被 阻塞 了 ， 等 竺 一 个 永远 也 不 会 为 真 的 条 件 。 进 度 图 对 于 理解 死 锁 是 一 个 无 价 的 工 
具 。 例如， 图 12-44 展示 了 一 对 用 两 个 信号 量 来 实现 互 斥 的 线程 的 进程 图 。 从 这 幅 图 中 ， 
我 们 能 够 得 到 一 些 关 于 死 锁 的 重要 知识 : 


线程 2 
ee 无 死 锁 的 轨迹 





Vs) 


Wn) 


Pls) 


线程 1 


9 PB ss VW ws Ws 
图 12-44 一 个 会 死 锁 的 程序 的 进度 图 


e 程序 员 使 用 P 和 V 操作 顺序 不 当 ， 以 至 于 两 个 信和 号 量 的 禁止 区 域 重 人 要。 如 果 某 个 执 
行 轨 迹 线 碰巧 到 达 了 死 锁 状态 4， 那 么 就 不 可 能 有 进一步 的 进展 了 ， 因 为 重合 的 禁 
止 区 域 阻塞 了 每 个 合法 方向 上 的 进展 。 换 名 话说， 程序 死 锁 是 因为 每 个 线程 都 在 等 
竺 其 他 线程 执行 一 个 根 不 可 能 发 生 的 Y 操 作 。 

se 重 倒 的 禁止 区 域 引起 了 一 组 称 为 死 锁 区 域 (deadlock region) 的 状态 。 如 果 一 个 轨迹 
线 碰巧 到 达 了 一 个 死 锁 区 域 中 的 状态 ， 那 么 死 锁 就 是 不 可 避免 的 了 。 轨 迹 线 可 以 进 
入 死 锁 区 域 ， 但 是 它们 不 可 能 离开 。 


722 第 三 部 分 程序 间 的 交互 和 通信 


e 死 锁 是 一 个 相当 困难 的 问题 ， 因 为 它 不 总 是 可 预测 的 。 一 些 斑 运 的 执行 轨迹 线 将 绕 开 死 
锁 区 域 ， 而 其 他 的 将 会 陷 人 这 个 区 域 。 图 12-44 展示 了 每 种 情况 的 一 个 示例 。 对 于 程序 
员 来 说 ， 这 其 中 隐 含 的 着 实 令 人 惊 居 。 你 可 以 运行 一 个 程序 1000 次 不 出 任何 问题 ， 但 是 
下 一 次 它 就 死 锁 了 。 或 者 程序 在 一 台 机 器 上 可 能 运行 得 很 好 ， 但 是 在 另外 的 机 郝 上 就 会 
死 锁 。 最 糟糕 的 是 ， 错 误 常 常 是 不 可 重复 的 ， 因 为 不 同 的 执行 有 不 同 的 轨迹 线 。 
程序 死 锁 有 很 多 原因 ， 要 避免 死 锁 一 般 而 言 是 很 困难 的 。 然 而 ， 当 使 用 二 元 信号 量 来 
实现 互 斥 时 ， 如 图 12-44 所 示 ， 你 可 以 应 用 下 面 的 简单 而 有 效 的 规则 来 避免 死 锁 : 
互 斥 锁 加 锁 顺 序 规 则 : 给 定 所 有 互 斥 操作 的 一 个 全 序 ， 如 果 每 个 线程 都 是 以 一 种 顺序 
获得 互 斥 锁 并 以 相反 的 顺序 释放 ， 那 么 这 个 程序 就 是 无 死 锁 的 。 
例如 ， 我 们 可 以 通过 这 样 的 方法 来 解决 图 12-44 中 的 死 锁 问 题 : 在 每 个 线程 中 先 对 
加 锁 ， 然 后 再 对 t 加 锁 。 图 12-45 展示 了 得 到 的 进度 图 。 
线程 2 


Vs) 


Vt) 


PD) 


Ps) 





线程 1 


Pls) i PD) a Vs) Pe Vn) 
图 12-45 ”一 个 无 死 锁 程序 的 进度 图 


四 怠 练习 题 12. 15 思考 下 面 的 程序 ， 它 试图 使 用 一 对 信号 量 来 实现 互 斥 。 
初始 时 : s=1,t = 0. 


线程 1: 线程 2: 
p(s); Pays 
V(s) ; V(s); 
PCOS P(t); 
YY V(t); 


A. 画 出 这 个 程序 的 进度 图 。 
B. 它 总 是 会 死 锁 吗 ? 


C. 如 果 是 ， 那 么 对 初始 信号 量 的 值 做 哪些 简单 的 改变 就 能 消除 这 种 潜在 的 死 锁 呢 ? 
D, 画 出 得 到 的 无 死 锁 程 序 的 进度 图 。 
12.8 小 结 


一 个 并 发 程序 是 由 在 时 间 上 重 有 个 的 一 组 逻辑 流 组 成 的 。 在 这 一 章 中 ,我 们 学 习 了 三 种 不 同 的 构建 并 
发 程序 的 机 制 进程 、L/O 多 路 复 用 和 线程 。 我 们 以 一 个 并 发 网 络 服务 器 作为 贯穿 全 章 的 应 用 程序 。 
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进程 是 由 内 核 自 动 调度 的 ， 而 且 因为 它们 有 各 自 独 立 的 虚拟 地 址 空间 ， 所 以 要 实现 共享 数据 ， 必 须 
要 有 显 式 的 IPC 机 制 。 事 件 驱动 程序 创建 它们 自己 的 并 发 逻辑 流 ， 这 些 逻辑 流 被 模型 化 为 状态 机 ， 用 
LI/O 多 路 复 用 来 显 式 地 调度 这 些 流 。 因 为 程序 运行 在 一 个 单一 进程 中 ， 所 以 在 流 之 间 共 享 数据 速度 很 快 而 
且 很 容易 。 线 程 是 这 些 方法 的 混合 。 辐 基于 进程 的 流 一 样 ， 线 程 也 是 由 内 核 自动 调度 的 。 同 基于 IO 多 
路 复 用 的 流 一 样 ， 线 程 是 运行 在 一 个 单一 进程 的 上 下 文中 的 ， 因 此 可 以 快速 而 方便 地 共享 数据 。 

无 论 哪 种 并 发 机 制 ， 同 步 对 共享 数据 的 并 发 访问 都 是 一 个 困难 的 问题 。 提 出 对 信号 量 的 P 和 V 操作 
就 是 为 了 帮助 解决 这 个 问题 。 信 和 号 量 操作 可 以 用 来 提供 对 共享 数据 的 互 斥 访问 ， 也 对 诸如 生产 者 -消费 者 
程序 中 有 限 缓冲 区 和 读者 - 写 者 系统 中 的 共享 对 象 这 样 的 资源 访问 进行 调度 。 一 个 并 发 预 线程 化 的 echo 
服务 器 提供 了 信和 号 量 使 用 场景 的 很 好 的 例子 。 

并 发 也 引入 了 其 他 一 些 困 难 的 问题 。 被 线程 调用 的 函数 必须 具有 一 种 称 为 线程 安全 的 属性 。 我 们 定 
义 了 四 类 线程 不 安全 的 函数 ， 以 及 一 些 将 它们 变 为 线程 安全 的 建议 。 可 重 人 函数 是 线程 安全 函数 的 一 个 
真子 集 ， 它 不 访问 任何 共享 数据 。 可 重 人 函数 通常 比 不 可 重 人 函数 更 为 有 效 ， 因 为 它们 不 需要 任何 同步 
原 语 。 竞 争 和 和 死 锁 是 并 发 程序 中 出 现 的 另 一 些 困 难 的 问题 。 当 程序 员 错 误 地 假设 逻辑 流 该 如 何 调度 时 ， 
就 会 发 生 竞 争 。 当 一 个 流 等 待 一 个 永远 不 会 发 生 的 事件 时 ， 就 会 产生 死 锁 。 


参考 文献 说 明 


信号 量 操作 是 Dijkstra 提出 的 [31]。 进 度 图 的 概念 是 Coffman [23j 提 出 的 ， 后 来 由 Carson 和 Reyn- 
olds [16] 形 式 化 的 。Courtois 等 人 [25j] 提 出 了 读者 - 写 者 问题 。 操 作 系 统 教科 书 更 详细 地 描述 了 经 典 的 同 
步 问 题 ， 例 如 哲学 家 进餐 问题 、 打 睹 睡 的 理发 师 问 题 和 吸烟 者 问题 L102，106，113]。 Butenhof 的 书 
[15] 对 Posix 线程 接口 有 全 面 的 描述 。Birrell [7] 的 论文 对 线程 编程 以 及 线程 编程 中 容易 遇 到 的 问题 做 了 
很 好 的 介绍 。Reinders 的 书 [90 描述 了 C/C++ 库 ， 简 化 了 线程 化 程序 的 设计 和 实现 。 有 一 些 课 本 讲述 了 
多 核 系 统 上 并 行 编程 的 基础 知识 [47，71]j。Pugh 描述 了 Java 线程 通过 内 存 进 行 交 互 的 方式 的 缺陷 ， 并 
提出 了 替代 的 内 存 模型 [88]。Gustafson 提出 了 蔡 代 强 扩 展 的 弱 扩 展 加 速 模型 L43] 。 


家 庭 作业 


* 12. 16 编写 hello.c( 图 12-13) 的 一 个 版 本 ， 它 创建 和 回收 个 可 结合 的 对 等 线程 ， 其 中 是 一 个 命令 
行 参数 。 
* 12.17 A. 图 12-46 中 的 程序 有 一 个 bug。 要 求 线程 睡眠 一 秒 钟 ， 然 后 输出 一 个 字符 串 。 然 而 ， 当 在 我 们 
的 系统 上 运行 它 时 ， 却 没有 任何 输出 。 为 什么 ? 

code/conc/hellobug.c 


/* WARNING: This code is buggy! */ 
#include "csapp.h" 
void *thread(void *vargp); 


int main() 
{ 
pthread_t tid; 


mY Om hb WN 一 


9 Pthread_create(&tid, NULL, thread, NULL); 
10 exit(0): 


13 /* Thread routine */ 

14 void *thread(void *vargp) 

15 所 

16 Sleep(1); 

17 printf ("Hello, world!\n"); 
18 return NULL; 

19 } 


code/conc/hellobug.c 
图 12-46 练习 题 12. 17 的 有 bug 的 程序 


** 12. 
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28 
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B. 你 可 以 通过 用 两 个 不 同 的 Pthreads 函数 调用 中 的 一 个 替代 第 10 行 中 的 exit 函数 来 改正 这 个 
错误 。 选 哪 一 个 呢 ? 

用 图 12-21 中 的 进度 图 ， 将 下 面 的 轨迹 线 分 类 为 安全 或 者 不 安全 的 。 

A Hoe Gi tis His Dis Sn Urs Srs ‘dis Ts 

B Hos Fvs in Us Si Ear Bis Uses .Ss 3 

Cs Hus Lys For Tas Uys Ss Es Ss Ts Ts 

图 12-26 中 第 一 类 读者 - 写 者 问题 的 解答 给 予 读 者 的 是 有 些 弱 的 优先 级 ， 因 为 读者 在 离开 它 的 临 

界 区 时 ， 可 能 会 重 局 一 个 正在 等 待 的 写 者 ， 而 不 是 一 个 正在 等 待 的 读者 。 推 导出 一 个 解答 ， 它 给 

予 读 者 更 强 的 优先 级 ， 当 写 者 离开 它 的 临界 区 的 时 候 ， 如 果 有 读者 正在 等 待 的 话 ， 就 总 是 重启 一 

个 正在 等 待 的 读者 。 

考虑 读者 - 写 者 问题 的 一 个 更 简单 的 变种 ， 即 最 多 只 有 N 个 读者 。 推 导出 一 个 解答 ， 给 予 读者 和 

写 者 同等 的 优先 级 ， 即 等 待 中 的 读者 和 写 者 被 赋予 对 资源 访问 的 同等 的 机 会 。 提 示 : 你 可 以 用 一 

个 计数 信号 量 和 一 个 互 斥 锁 来 解决 这 个 问题 。 

推导 出 第 二 类 读者 - 写 者 问题 的 一 个 解答 ， 在 此 写 者 的 优先 级 高 于 读者 。 

检查 一 下 你 对 select 函数 的 理解 ， 请 修改 图 12-6 中 的 服务 器 ， 使 得 它 在 主 服务 器 的 每 次 迭代 中 

最 多 只 回 送 一 个 文本 行 。 

图 12-8 中 的 事件 驱动 并 发 echo 服务 器 是 有 缺陷 的 ， 因 为 一 个 恶意 的 客户 端 能 够 通过 发 送 部 分 的 

文本 行 ， 使 服务 器 拒绝 为 其 他 客户 端 服务 。 编 写 一 个 改进 的 服务 器 版 本 ， 使 之 能 够 非 阻 塞 地 处 理 

这 些 部 分 文本 行 。 

RIO IO 包 中 的 函数 (10.5 节 ) 都 是 线程 安全 的 。 它 们 也 都 是 可 重 人 函数 吗 ? 

在 图 12-28 中 的 预 线程 化 的 并 发 echo 服务 器 中 ， 每 个 线程 都 调用 echo_cnt 函数 (图 12-29 ) 。 

echo_cnt 是 线程 安全 的 吗 ? 它 是 可 重 入 的 吗 ? 为 什么 是 或 为 什么 不 是 呢 ? 

用 加 锁 - 复 制 技 术 来 实现 gethostbyname 的 一 个 线程 安全 而 又 不 可 重 人 的 版 本 ， 称 为 gethost - 

byname ts。 一 个 正确 的 解答 是 使 用 由 互 斥 锁 保 护 的 hostent 结构 的 深层 副本 。 

一 些 网 络 编程 的 教科 书 建 议 用 以 下 的 方法 来 读 和 写 套 接 字 : 和 客户 端 交 互 之 前 ， 在 同一 个 打开 的 

已 连接 套 接 字 描述 符 上 ， 打 开 两 个 标准 I/O 流 ， 一 个 用 来 读 ， 一 个 用 来 写 : 

FILE *fpin, *fpout; 


fpin = fdopen(sockfd, "r"); 
fpout = fdopen(sockfd, "w"); 


当 服 务 器 完成 和 客户 端的 交互 之 后 ， 像 下 面 这 样 关闭 两 个 流 : 
fclose(fpin) ; 
fclose(fpout) ; 

然而 ， 如 果 你 试图 在 基于 线程 的 并 发 服务 器 上 演 试 这 种 方式 ， 将 制造 一 个 致命 的 竞争 条 件 。 
请 解释 。 
在 图 12-45 中 ， 将 两 个 Y 操作 的 顺序 交换 ， 对 程序 死 锁 是 否 有 影响 ? 通过 画 出 四 种 可 能 情况 的 进 
度 图 来 证 明 你 的 答案 : 





* 12. 29 下 面 的 程序 会 死 锁 吗 ? 为 什么 会 或 者 为 什么 不 会 ? 
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* 12. 30 


+# 12. 31 


+# 12. 32 


+* 12. 33 


## 12. 34 
**# 12. 35 


4# 12. 36 


初始 时 : a& 三 1， b=1;c=1 


线程 1: 线程 2: 

P(a) ; PKCy 

P(b) ; P(b) ; 

V(b); V(b):; 

PpP(c); V(c); 

V(c); 

V(a); 

考虑 下 面 这 个 会 死 锁 的 程序 。 

初始 时 : a=1 ,b=1,c=1 

线程 1: 线程 2: 线程 3: 
P(a) ; P(c) ; Plc); 
P(b) ; P(b) ; V(c); 
V(b); V(b); P(b); 
P(c); V(c); Pp(a); 
We p(a); V(a); 
V(a); V(a); V(b); 


A. 列 出 每 个 线程 同时 占用 的 一 对 互 斥 锁 。 
B. 如 果 a<b<<c， 那 么 哪个 线程 违背 了 互 矿 锁 加 锁 顺 序 规则 ? 
C. 对 于 这 些 线程 ， 指 出 一 个 新 的 保证 不 会 发 生死 锁 的 加 锁 顺 序 。 
实现 标准 I/O 函数 fgets 的 一 个 版 本 ， 叫 做 tfgets， 假 如 它 在 5 秒 之 内 没有 从 标准 输入 上 接收 到 
一 个 输入 行 ， 那 么 就 超时 ， 并 返回 一 个 NULL 指针 。 你 的 函数 应 该 实现 在 一 个 叫做 tfgets-proc.c 
的 包 中 ， 使 用 进程 、 信 号 和 非 本 地 跳 转 。 它 不 应 该 使 用 Linux 的 alarm 函数 。 使 用 图 12-47 中 的 驱 
动 程序 测试 你 的 结果 。 
code/conc/tfgets-main.c 
#include "csapp.h" 


char *tfgets(char *s, int size, FILE *stream); 


1 
2 
3 
4 
5 int main() 
6 
7 
8 


{ 
char buf [MAXLINE] ; 

轩 if (tfgets(buf, MAXLINE, stdin) == NULL) 
10 printf ("BOOM! \n"); 
11 else 
12 printf ("%s", buf); 
13 
14 exit(0); 
15s } 


code/conc/tfgets-main.c 


图 12-47 家庭 作业 题 12. 31 一 12. 33 的 驱动 程序 


使 用 select 函数 来 实现 练习 题 12. 31 中 tfgets 函数 的 一 个 版 本 。 你 的 函数 应 该 在 一 个 叫做 tf - 
gets- select.c 的 包 中 实现 。 用 练习 题 12. 31 中 的 驱动 程序 测试 你 的 结果 。 你 可 以 假定 标准 输入 
被 赋值 为 描述 符 0。 

实现 练习 题 12. 31 中 tfgets 函数 的 一 个 线程 化 的 版 本 。 你 的 函数 应 该 在 一 个 叫做 tfgets- 
thread.c 的 包 中 实现 。 用 练习 题 12. 31 中 的 驱动 程序 测试 你 的 结果 。 

编写 一 个 NXxM 短 阵 乘法 核心 函数 的 并 行 线 程 化 版 本 。 比 较 它 的 性 能 与 顺序 的 版 本 的 性 能 。 
实现 一 个 基于 进程 的 TINY Web 服务 器 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 
个 新 的 子 进程 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解答 。 

实现 一 个 基于 1/O 多 路 复 用 的 TINY Web 服务 器 的 并 发 版 本 。 使 用 一 个 实际 的 Web 浏览 器 来 测 
试 你 的 解答 。 
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实现 一 个 基于 线程 的 TINY Web 服务 人 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 

个 新 的 线程 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解答 。 

实现 一 个 TINY Web 服务 右 的 并 发 预 线程 化 的 版 本 。 你 的 解答 应 该 根据 当前 的 负载 ， 动 态 地 增加 

或 减少 线程 的 数目 。 一 个 策略 是 当 缓 冲 区 变 满 时 ， 将 线程 数量 翻 倍 ， 而 当 缓 冲 区 变 为 空 时 ， 将 线 

程 数目 减 半 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解答 。 

Web 代理 是 一 个 在 Web 服务 改 和 浏览 硕 之 间 扮 演 中 间 角 色 的 程序 。 浏 览 器 不 是 直接 连接 服务 器 

以 获取 网 页 ， 而 是 与 代理 连接 ， 代 理 再 将 请 求 转发 给 服务 器 。 当 服务 器 响应 代理 时 ， 代 理 将 响应 

发 送 给 浏览 右 。 为 了 这 个 试验 ， 请 你 编写 一 个 简单 的 可 以 过 滤 和 记录 请 求 的 Web 代理 : 

A. 试验 的 第 一 部 分 中 ,你 要 建立 以 接收 请 求 的 代理 , 分 析 HTTP， 转 发 请 求 给 服务 器 ， 并 且 返 
回 结果 给 浏览 器 。 你 的 代理 将 所 有 请 求 的 URL 记录 在 磁盘 上 一 个 日 志文 件 中 ， 同 时 它 还 要 阻 
塞 所 有 对 包含 在 磁盘 上 一 个 过 滤 文 件 中 的 URL 的 请 求 。 

B. 试验 的 第 二 部 分 中 ， 你 要 升级 代理 ， 它 通过 派生 一 个 独立 的 线程 来 处 理 每 一 个 请 求 ， 使 得 代 
理 能 够 一 次 处 理 多 个 打开 的 连接 。 当 你 的 代理 在 等 竺 远程 服务 器 响应 一 个 请 求 使 它 能 服务 于 

一 个 浏览 副 时 ， 它 应 该 可 以 处 理 来 目 为 一 个 浏览 大 示 完成 的 请 求 。 

使 用 一 个 实际 的 Web 浏览 器 来 检验 你 的 解答 。 
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当 父 进程 派生 子 进程 时 ， 它 得 到 一 个 已 连接 描述 符 的 副本 ， 并 将 相关 文件 表 中 的 引用 计数 从 1 增 
加 到 2。 当 父 进 程 关闭 它 的 描述 符 副 本 时 ， 引 用 计数 就 从 2 减少 到 1。 因 为 内 核 不 会 关闭 一 个 文 
件 ， 直 到 文件 表 中 它 的 引用 计数 值 变 为 零 ， 所 以 子 进程 这 边 的 连接 端 将 保持 打开 。 

当 一 个 进程 因为 某 种 原因 终止 时 ， 内 核 将 关闭 所 有 打开 的 描述 符 。 因 此 ， 当 子 进程 退出 时 ， 它 的 
已 连接 文件 摘 述 符 的 副本 也 将 被 自动 关闭 。 

回想 一 下 ， 如 果 一 个 从 摘 述 符 中 读 一 个 字 节 的 请 求 不 会 阻塞 ， 那 么 这 个 摘 述 符 就 准备 好 可 以 读 了 。 
假如 EOF 在 一 个 描述 符 上 为 真 ， 那么 描述 符 也 准备 好 可 读 了 ， 因 为 读 操作 将 立即 返回 一 个 零 返 回 
码 ， 表 示 EOF。 因 此 ,键入 Ctrl 十 D 会 导致 select 函数 返回 ,准备 好 的 集合 中 有 描述 符 0。 
因为 变量 pool .read set 既 作 为 输入 参数 也 作为 输出 参数 ， 所 以 我 们 在 每 一 次 调用 select 之 前 
都 重新 初始 化 它 。 在 输入 时 ， 它 包含 读 集 合 。 在 输出 ， 它 包含 准备 好 的 集合 。 

因为 线程 运行 在 同一 个 进程 中 ， 它们 都 共享 相同 的 描述 符 表 。 无 论 有 多 少 线程 使 用 这 个 已 连接 描 
述 符 ， 这 个 已 连接 描述 符 的 文件 表 的 引用 计数 都 等 于 1。 因 此 ， 当 我 们 用 完 它 时 ， 一 个 close 操 
作 就 足以 释放 与 这 个 已 连接 描述 符 相 关 的 内 存 资源 了 。 

这 里 的 主要 的 思想 是 ， 栈 变量 是 私有 的 ， 而 全 局 和 静态 变量 是 共享 的 。 诸 如 cnt 这 样 的 静态 变量 
有 点 小 麻烦 ， 因 为 共享 是 限制 在 它们 的 消 数 范围 内 的 一 一 在 这 个 例子 中 ， 就 是 线程 例 程 。 

A. 下 面 就 是 这 张 表 : 


变量 实例 锌 主 线程 引用 ? 被 对 等 线程 0 引用 ? 被 对 等 线程 1 引用 ? 
Ptr | 是 | 是 | 是 





@ ptr: 一 个 被 主线 程 写 和 被 对 等 线程 读 的 全 局 变量 。 

@ cnt: 一 个 静态 变量 ,在 内 存 中 只 有 一 个 实例 ， 被 两 个 对 等 线程 读 和 写 。 

@ i.m: 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 。 虽 然 它 的 值 被 传递 给 对 等 线程 ， 但 是 对 等 线 
程 也 绝 不 会 在 栈 中 引用 它 ， 因 此 它 不 是 共享 的 。 
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@ msgs.m: 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 ， 被 两 个 对 等 线程 通过 ptr 间接 地 引用 。 
9 myid.0 和 myid.1; 一 个 本 地 目 动 变量 的 实例 ， 分 别 驻 留 在 对 等 线程 0 和 线程 1 的 栈 中 。 
B. 变量 ptr、cnt 和 msgs 被 多 于 一 个 线程 引用 ， 因 此 它们 是 共享 的 。 
这 里 的 重要 思想 是 ， 你 不 能 假设 当 内 核 调度 你 的 线程 时 会 如 何 选择 顺序 。 


DO) Im FE DO :KR BD 0 fess hs | 
一 一 一 一 一 OOoODS 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 





变量 cnt 最 终 有 一 个 不 正确 的 值 1。 

这 道 题 简 单 地 测试 你 对 进度 图 中 安全 和 不 安全 轨迹 线 的 理解 。 像 A 和 C 这样 的 轨迹 线 绕 开 了 临界 

区 ， 是 安全 的 ， 会 产生 正确 的 结果 。 

A 的 

BR 不 安全 前 

CG Wh Bs a 

A. p= 二 1，c 王 1， n 记 1: 是 ， 互 斥 锁 是 需要 的 ， 因 为 生产 者 和 消费 者 会 并 发 地 访问 缓冲 区 。 

B. p= 二 1，c 二 1，n 二 1: 不 是 ， 在 这 种 情况 中 不 需要 互 斥 锁 信 号 量 ， 因 为 一 个 非 空 的 缓冲 区 就 等 于 
满 的 缓冲 区 。 当 缓冲 区 包含 一 个 项 目 时 ， 生 产 者 就 被 阻塞 了 。 当 缓冲 区 为 空 时 ， 消 费 者 就 被 阻 
塞 了 。 所 以 在 任意 时 刻 ， 只 有 一 个 线程 可 以 访问 缓冲 区 ， 因 此 不 用 互 斥 锁 也 能 保证 互 斥 。 

C. b>>1，c>>1，7 一 1: 不 是 ， 在 这 种 情况 中 ， 也 不 需要 互 斥 锁 ， 原 因 与 前 面 一 种 情况 相同 。 

假设 一 个 特殊 的 信号 量 实现 为 每 一 个 信号 量 使 用 了 一 个 LIFO 的 线程 栈 。 当 一 个 线程 在 P 操作 中 

阻塞 在 一 个 信号 量 上 ,， 它 的 ID 就 被 压 人 栈 中 。 类 似 地 ,， V 操作 从 栈 中 弹出 栈 顶 的 线程 ID， 并 重 

局 这 个 线程 。 根 据 这 个 栈 的 实现 ， 一 个 在 它 的 临界 区 中 的 竞争 的 写 者 会 简单 地 等 待 ， 直 到 在 它 释 

放 这 个 信和 号 量 之 前 另 一 个 写 者 阻塞 在 这 个 信号 量 上 。 在 这 种 场景 中 ， 当 两 个 写 者 来 回 地 传递 控制 

权时 ， 正 在 等 待 的 读者 可 能 会 永远 地 等 待 下 去 。 

注意 ， 虽 然 用 FIFO 队列 而 不 是 用 LIFO 更 符合 直觉 ， 但 是 使 用 LIFO 的 栈 也 是 对 的 ， 而 且 也 没 

有 违反 P 和 V 操作 的 语义 。 

这 道 题 简单 地 检查 你 对 加 速 比 和 并 行 效率 的 理解 : 


线程 D2 
LU 核 @ _ | mm | | | 

| 
一 io | 一 一 一 
ctime ts 果 数 不 是 可 重 入 函数 ， 因 为 每 次 调用 都 共享 相同 的 由 gethostbyname 函数 返回 的 static 变 
量 。 然 而 ， 它 是 线程 安全 的 ， 因 为 对 共享 变量 的 访问 是 被 P 和 操作 保护 的 ， 因 此 是 互 斥 的 。 
如 果 在 第 14 行 调用 了 pthread_create 之 后 ， 我 们 立即 释放 块 ， 那 么 将 引入 一 个 新 的 竞争 ， 这 
次 竞争 发 生 在 主线 程 对 free 的 调用 和 线程 例 程 中 第 24 行 的 赋值 语句 之 间 。 
A. 另 一 种 方法 是 直接 传递 整数 i， 而 不 是 传递 一 个 指向 i 的 指针 : 
for (i = 0; i < Ni i++) 

Pthread_create(&tid[i], NULL, thread, (void *)i); 
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在 线程 例 程 中 ， 我 们 将 参数 强制 转换 成 一 个 int 类 型 ， 并 将 它 赋值 给 myid: 


int myid = (int) vargp; 


B. 优点 是 它 通过 消除 对 malloc 和 free 的 调用 降低 了 开销 。 一 个 明显 的 缺点 是 ， 它 假设 指针 至 
少 和 int 一 样 大 。 即 便 这 种 假设 对 于 所 有 的 现代 系统 来 说 都 为 真 ， 但 是 它 对 于 那些 过 去 遗留 
下 来 的 或 今后 的 系统 来 说 可 能 就 不 为 真 了 。 
12. 15 A. 原始 的 程序 的 进度 图 如 图 12-48 所 示 。 
线程 2 


Vt) 


三 (用 


V's) 





线程 1 
P(s) 2 Vs) “a PN ... WV) 


图 12-48 一 个 有 死 锁 的 程序 的 进度 图 


B. 因为 任何 可 行 的 轨迹 最 终 都 陷入 死 锁 状态 中 ， 所 以 这 个 程序 总 是 会 死 锁 。 
C. 为 了 消除 潜在 的 死 锁 ， 将 二 元 信号 量 七 初始 化 为 1 而 不 是 0。 
D. 改 成 后 的 程序 的 进度 图 如 图 12-49 所 示 。 

线程 2 


Kt) 


P(t) 


Vs) 





线程 1 


Pl(s) 站 竹 Vls) 让 和 和 P(t) 人 MD) 
图 12-49 ”改正 后 的 无 死 锁 的 程序 的 进度 图 
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程序 员 应 该 总 是 检查 系统 级 函数 返回 的 错误 代码 。 有 许多 细微 的 方式 会 叶 致 出 现 销 
误 ， 只 有 使 用 内 核能 够 提供 给 我 们 的 状态 信息 才能 理解 为 什么 有 这 样 的 错误 。 不 从 的 是 ， 
程序 员 往 往 不 愿意 进行 错误 检查 ， 因 为 这 使 他 们 的 代码 变 得 很 庞大 ， 将 一 行 代码 变 成 一 个 
多 行 的 条 件 语句 。 错 误 检 查 也 是 很 令 人 迷惑 的 ， 因 为 不 同 的 图 数 以 不 同 的 方式 表示 错误 。 

在 编写 本 书 时 ， 我 们 面临 类 似 的 问题 。 一 方面 ， 我们 希望 代码 示例 阅读 起 来 简洁 简 
单 ; 男 一 方面 ,我 们 又 不 希望 给 学 生 们 一 个 错误 的 印象 ， 以 为 可 以 省 略 错误 检查 。 为 了 解 
决 这 些 问 题 ， 我 们 采用 了 一 种 基于 错误 处 理 包装 函数 (error-handling wrapper) 的 方法 ， 这 
是 由 W. Richard Stevens 在 他 的 网 络 编程 教材 L110] 中 最 先 提出 的 。 

其 思想 是 ， 给 定 某 个 基本 的 系统 级 函数 foo， 我 们 定义 一 个 有 相同 参数 、 只 不 过 开头 
字母 大 写 了 的 包装 函数 Foo。 包 装 晴 数 调用 基本 函数 并 检查 错误 。 如 果 包 装 消 数 发 现 了 错 
误 ， 那 么 它 就 打印 一 条 信息 并 终止 进程 。 和 否则 ， 它 返回 到 调用 者 。 注 意 ， 如 果 没 有 错误 ， 
包装 陆 数 的 行为 与 基本 函数 完全 一 样 。 换 名 话说， 如 果 程 序 使 用 包装 洱 数 运行 正确 ， 那 么 
我 们 把 每 个 包装 天 数 的 第 一 个 字母 小 写 并 重新 编译 ， 也 能 正确 运行 。 

包装 函数 被 封装 在 一 个 源 文 件 (csapp.c) 中 ， 这 个 文件 被 编译 和 链接 到 每 个 程序 中 。 
一 个 独立 的 头 文件 (csapp.h) 中 包含 这 些 包 装 困 数 的 图 数 原 型 。 

本 附录 给 出 了 一 个 关于 Unix 系统 中 不 同 种 类 的 错误 处 理 的 教程 ， 还 给 出 了 不 同 风格 
的 错误 处 理 包 装 函 数 的 示例 。csapp.h 和 csapp.c 文 件 可 以 从 CS: APP 网 站 上 获得 。 


A. 1 Unix 系统 中 的 错误 处 理 


本 书 中 我 们 遇 到 的 系统 级 函数 调用 使 用 三 种 不 同 风格 的 返回 错误 : Unix 风格 的 、 
Posix 风格 的 和 GAI 风格 的 。 

1. Unix 风格 的 错误 处 理 

像 fork 和 wait 这 样 Unix 早期 开发 出 来 的 函数 (以 及 一 些 较 老 的 Posix 函数 ) 的 函数 
返回 值 既 包括 错误 代码 ， 也 包括 有 用 的 结果 。 例 如 ， 当 Unix 风格 的 wait 函数 过 到 一 个 
错误 (例如 没有 子 进程 要 回收 )， 它 就 返回 一 1， 并 将 全 局 变量 errno 设置 为 指明 错误 原因 
的 错误 代码 。 如 果 wait 成 功 完成 ， 那 么 它 就 返回 有 用 的 绪 果 ， 也 就 是 回收 的 子 进程 的 
PID。Unix 风格 的 错误 处 理 代码 通常 具有 以 下 形式 : 

1 if ((pid = wait(NULL)) < 0) 1{ 

2 fprintf(stderr, "wait error: %hs\n", strerror(errno)); 

3 exit(0); 

4 } 

strerror 困 数 返回 某 个 errno 值 的 文本 描述 。 

2. Posix 风格 的 错误 处 理 

许多 较 新 的 Posix 函数 ， 例 如 Pthread 了 艺 数 ， 只 用 返回 值 来 表明 成 功 (0) 或 者 失败 ( 非 
0)。 任 何 有 用 的 结果 都 返回 在 通过 引用 传递 进来 的 函数 参数 中 。 我 们 称 这 种 方法 为 Posix 
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风格 的 错误 处 理 。 例 如 ，Posix 风格 的 pthread create 哺 数 用 它 的 返回 值 来 表明 成 功 或 
者 失败 ， 而 通过 引用 将 新 创建 的 线程 的 ID( 有 用 的 结果 ) 返 回放 在 它 的 第 一 个 参数 中 。Pos- 
ix 风格 的 错误 处 理 代码 通常 具有 以 下 形式 : 

if ((retcode = pthread_create(&tid, NULL, thread, NULL)) != 0) { 


fprintf (stderr, "pthread_create error: hs\n", strerror(retcode)); 
exit(0): 


小 lo 一 


小 


strerror 图 数 返 回 retcode 某 个 值 对 应 的 文本 描述 。 

3. GAI 风格 的 错误 处 理 

getaddrinfo(GAI) 和 getnameinfo 图 数 成 功 时 返回 零 ， 失 败 时 返回 非 零 值 。GAI 
错误 处 理 代 码 通常 具有 以 下 形式 : 


| if ((retcode = getaddrinfo(host, service, &hints, &result)) != 0) { 

2 fprintf(stderr, "getaddrinfo error: %s\n", gai_strerror(retcode)); 
3 exit(0); 

4 上 


gai strerror 因数 返回 retcode 某 个 值 对 应 的 文本 描述 。 
4. 错误 报告 函数 小 结 
贯穿 本 书 ， 我 们 使 用 下 列 错误 报告 函数 来 包容 不 同 的 错误 处 理 风格 : 


#include "csapp.h" 


void unix_error(char *msg); 
void posix_error(int code, char *msg); 


void gai_error(int code, char *msg); 
void apP_error(char *msg); 





正如 它们 的 名 字 表 明 的 那样 ，unix error、posix error 和 gai error 图 数 报告 
Unix 风格 的 错误 、Posix 风格 的 错误 和 GAI 风格 的 错误 ， 然 后 终止 。 包 括 app error 限 
数 是 为 了 方便 报告 应 用 错误 。 它 只 是 简单 地 打印 它 的 输入 ， 然 后 终止 。 图 A-1 展示 了 这 些 
错误 报告 函数 的 代码 。 


code/src/csapp.c 
1 void unix_error(char *msg) /* Unix-style error */ 
2 世 
3 fprintf(stderr, "hs: hs\n'", msg, strerror(errno)); 
4 exit (0); 
5 
n 
7 void posix_error(int code, char *msg) /* Posix-style error */ 
8 + 
9 fprintf(stderr, "%s: hs\n", msg, strerror(code)); 
10 exit(0); 
11 } 


13 void gai_error(int code, char *msg) /* Getaddrinfo-style error */ 


图 A-1 错误 报告 函数 
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14 + 

15 fprintf(stderr, "%s: %s\n", msg, gai_strerror(code)); 
16 exit (0); 

17 J 

18 

19 void app_error(char *msg) /* Application error */ 

20 并 

21 fprintf(stderr, "hs\n", msg); 

22 exit(0); 

2 二 


code/src/csapp.c 
图 A-1 ( 续 ) 


A. 2 错误 处 理 包 装 函 数 


下 面 是 一 些 不 同 错误 处 理 包 装 函 数 的 示例 : 

@ Unix 风格 的 错误 处 理 包 装 函 数 。 图 A-2 展示 了 Unix 风格 的 wait 函数 的 包装 函数 。 
如 果 wa 让 返回 一 个 错误 ， 包 装 图 数 打 印 一 条 消息 ， 然 后 退出 。 和 否则 ， 它 回调 用 者 
返回 一 个 PID。 图 A-3 展示 了 Unix 风格 的 kill 因数 的 包装 图 数 。 注 意 ， 这 个 函数 
和 wait 不 同 ， 成 功 时 返回 voida。 


code/src/csapp.c 

1 pidt Wait(int *status) 

2: 二 

3 pid.t pid; 

4 

5 if ((pid = wait(status)) < 0) 

6 unix_error('"'Wait error'"); 

7 return pid; 

8 } 
code/src/csapp.c 

图 A-2 Unix 风格 的 wait 也 数 的 包装 函数 

CCOCOCCOCOCOCOCCO code/src/csapp.c 

1 void Kill(pid_t pid, int signum) 

和 区 

3 nt Yo: 

4 

5 if ((rc = kill(pid, signum)) < 0) 

unix_error("Kill error"); 

7 J} 
code/src/csapp.c 


图 A-3 ”Unix 风格 的 kill 函数 的 包装 函数 


@ Posix 风格 的 错误 处 理 包装 函数 。 图 A-4 展示 了 Posix 风格 的 pthread detach 函 
数 的 包 污 了 蚂 数 。 同 大 多 数 Posix 风格 的 函数 一 样 ， 它 的 错误 返回 码 中 不 会 包含 有 用 
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code/src/csapp.c 
1 void Pthread_detach(pthread_t tid) { 
2 tC 
3 
4 if ((rc = pthread_detach(tid)) != 0) 
5 posix_error(rc, "Pthread_detach error"); 
6 } 
code/src/csapp.c 


图 A-4 ”Posix 风格 的 pthread detach 图 数 的 包装 顶 数 


e@ GAI 风格 的 错误 处 理 包 装 函 数 。 图 A-5 展示 了 GAI 风格 的 getaddqrinfo 果 数 的 包 
装 困 数 。 


code/src/csapp.c 


void Getaddrinfo(const char *node, const char *service, 
const struct addrinfo *hints, struct addrinfo **res) 
{ 
10% TC: 
if ((rc = getaddrinfo(node, service, hints, res)) != 0) 
gai_error(rc, "Getaddrinfo error"); 
} 


code/src/csapp.c 
图 A-5 GAI 风格 的 getaddrinfo 限 数 的 包装 函数 
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